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内 容 简介 

TensorFlow 是 谷歌 2015 年 开源 的 主流 深度 学 习 框 架 ， 目 前 已 在 谷歌 、 优 步 

(Uber) 、 京 东 、 小 米 等 科技 公司 广泛 应 用 。 本 书 为 使 用 TensorFlow 深 度 学 
习 框 架 的 入 门 参 考 书 ， 旨 在 帮助 读者 以 快速 、 有效 的 方式 上 手 TensorFlow 和 
深度 学 习 。 书 中 省 略 了 深度 学 习 索 开 的 数学 模型 推导 ， 从 实际 应 用 问题 出 
发 ， 通 过 具体 的 TensorFlow 样 例 程序 介绍 如 何 了 使 用 深度 学 习 解 决 这 些 问 
题 。 书 中 包含 了 深度 学 习 的 入 门 知识 和 大 量 实践 经 验 ， 是 走 进 这 个 前 沿 、 热 
门 的 人 工 智能 领域 的 首选 参考 书 。 
读者 对 象 : 对 人 工 智能 、 深 度 学 习 感 兴趣 的 计算 机 相关 从 业 人 员 ， 想 要 使 用 
深度 学 习 或 TensorFlow 的 数据 和 科学家、 工程师 ， 和 希望 了 解 深 度 学 习 的 大 数据 
平台 工程 师 ， 对 人 工 智能 、 机 器 学 习 感 兴趣 的 在 校 学 生 ， 硕 望 找 深度 学 习 相 
关闭 位 的 求职 人 员 ， 等 等 。 
未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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推荐 序 1 


“互联 网 +" 的 大 潮 催 生 了 诸如 “互联 网 + 外 卖 "、“ 互 联网 + 打车 "、“ 互 联网 + 家 
政 "等 众多 商业 模式 的 创新 和 创业 佳话 。 而 当 “ 互 联网 + 已 被 写 入 教科 书 并 成 
为 传统 行业 都 在 积极 路 行 的 发 展 道路 时 ， 过 去 一 年 科技 界 的 聚光灯 却 被 人 工 
智能 和 深度 学 习 所 创造 的 一 个 个 奇迹 所 占据 。 从 阿尔 法 狗 司 虐 围 棋 界 ， 到 人 
工 智能 创业 大 军 的 崛起 ， 都 预示 着 我 们 即将 步 入 “At 的 时 代 : “AT+ 孝 
、“AI+ 媒 体 "、“AI+ 医 学 ”、“AI+ 配 送 ”、“AI+ 农 业 "， 等 等 ， 将 会 层 出 不 


育 ” 
穷 。 
AI 在 近期 的 爆发 离 不 开 数 据 “ 质 >” 和“* 量 ”的 提升 ， 离 不 开 高 性 能 计算 平台 的 发 
展 ， 更 离 不 开 算法 的 进步 ， 而 深度 学 习 则 成 为 了 推动 算法 进步 中 的 一 个 主力 
苗 。TensorFlow 作 为 谷歌 开源 的 深度 学 习 框 架 ， 包 含 了 谷歌 过 去 10 年 间 对 于 
人 工 智 能 的 探索 和 成 功 的 商业 应 用 。 人 谷歌 的 目 概 车、 搜索、 购物 、 广 告 、 云 
计算 等 产品 ， 都 无 时 无 刻 不 在 利用 类 似 TensorFlow 的 深度 学 习 算 法 将 数据 的 
价值 最 大 化 ， 从 而 创造 巨大 的 商业 价值 。 


TensorFlow 作 为 一 个 开源 框架 ， 在 极 短 时 间 内 迅速 圈 粉 并 已 成 为 github.com 上 
泪眼 的 明星 。 人 然而， 掌握 深度 学 习 需 要 较 强 的 理论 功 确 ， 用 好 TensorFlow 叉 
需要 足够 的 实践 和 解析 。 开 源 项 目 和 代码 本 身 固 然 重 要 ， 但 更 重要 的 是 使 用 
者 的 经 验 和 领域 知识 ， 以 及 如 何 将 底层 技术 或 工具 采用 最 佳 实践 和 模式 来 解 
决 现实 问题 。 我 与 作者 共事 多 年 ， 浏 览 本 书后 深 深 体 会 到 该 作品 是 作者 在 谷 
歌 多 年 分 布 式 深度 学 习 实 践 经 验 和 其 理论 才学 的 浓缩 ， 也 相信 这 本 从 入 门 到 
高 级 实践 的 读物 能 够 为 每 个 读者 带 来 一 个 精神 盛 宣 ， 并 帮助 计算 机 技术 从 业 
者 在 各 自 的 业务 领域 打开 新 的 思路 、 搬 上 新 的 翅膀 。 


KBE 
杭州 才 云 科技 有 限 公 司 联合 创始 人 CEO、Carnegie Mellon University 计 算 机 博 


推荐 序 2 


自 2015 年 11 月 发 布 以 来 ， TensorFlow 在 GitHub 上 迅速 受到 广泛 关注 。 

TensorFlow 的 一 个 突出 特点 ， 是 它 很 好 地 兼顾 了 学 术 研 究 和 工业 生产 的 不 同 
需求 。 一 方面 ， K it 3 性 使 得 研究 人 员 能 够 利用 它 快 速 实现 最 新 
的 模型 设计 ; 另 一 方面 ，TensorFlow 强 大 的 分 布 式 文 持 ， 对 工业 界 在 海量 数 
据 集 上 进行 的 模型 训练 也 至 关 重 要 © 


以 我 供职 的 谷歌 翻译 组 为 例 ， 在 研发 最 新 的 神经 网 络 翻译 模型 过 程 中 ， 我 们 
既 需 要 快速 灵活 地 尝试 学 术 界 各 类 最 新 的 想法 ， 又 需要 成 熟 、 高 效 的 分 布 式 
训练 系统 ， 以 便 在 十 亿 句 量 级 的 训练 数据 上 训练 最 终 模 型 。TensorFlow 的 特 
性 使 我 们 只 需 维 护 一 套 代码 ， | 模型 训练 完 
成 之 后 ， 我 们 又 借助 TensorFlow 搭 建 了 一 个 高 性 能 、 低 延迟 的 在 线 翻 译 服 
F o HEARKE D e ae eee 其 中 超过 35% 
是 通过 TensorFlow 进 行 的 。 


TensorFlow 还 有 着 强大 的 可 移植 性 ， 支 持 GPU、CPU、 安 卓 、iOS 等 多 种 计算 

平台 。 受 益 于 这 一 特性 ， 开发 者 可 以 在 移动 平台 上 开发 复杂 的 深度 学 习 应 

用 。 仍 以 翻译 为 例 ， 谷 歌 翻 译 应 用 中 广 受 好 评 的 图 片 即时 翻译 功能 Bes 

赖 于 移动 平台 上 的 TensorFlow， 使 用 用 户 的 手机 本 地 完成 计算 的 。 这 一 功能 

人 更 加 自由 地 体验 全 Se HPI 
情 。 


谷歌 已 经 将 TensorFlow 大 规模 应 用 于 数 十 项 产品 的 研发 中 ， 而 在 谷歌 以 外 ， 

TensorFlow 也 逐渐 得 到 广泛 应 用 。 从 国内 的 小 米 、 京 东 ， 到 硅谷 的 Uber、 
Airbnb、Twitter 等 ， 部 已 经 开始 采用 TensorFlow 进 行 生 产 实践 。 多 伦 多 大 学 、 
加 州 大 学 伯克利 分 校 等 车 名 高 校 ， 也 已 经 将 TensorFlow 用 于 教学 当中 ， 斯 坦 


福 大 学 更 是 专门 开设 了 “TensorFlow for Deep Learning Research” 课 程 ， 帮 助 学 
生 深 入 理解 这 一 深度 学 习 领 域 的 重要 工具 。 


作者 郑 泽 宇 是 我 的 多 年 好 友 ， eh A A er 
有 着 极为 丰富 的 经 验 。 这 本 教程 从 深入 浅 出 ， 洱 盖 了 深度 学 习 中 各 见 算法 的 
理论 基础 和 TensorFlow 实 现 两 方面 内 容 。 aE 帮助 读者 在 最 短 时 间 
习 并 熟练 应 用 TensorFlow， 在 这 一 当前 极为 活跃 的 领域 展开 工 


梁 博 文 
工程 师 ， 合 歌 翻译 团队 
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深度 学 习 融 来 的 技术 音 命 波及 其 三， 学 术 界 同样 早已 从 中 受益 ， 将 深度 学 习 
广泛 应 用 到 各 个 学 科 领 域 。 深度 学 习 源 目 “ 上 古老” 的 神经 网 络 技 术 ， 既 标志 着 
传统 神经 网 络 的 卷土重来 tH #8 H AlphaGo Ek ARI — 1%, Fria S AIRE 
炸 式 发 展 的 大 幕 。 机 融 学 习 为 人 工 智能 指明 道路 ， 而 深度 学 习 则 让 机 大 学 习 
真正 落地 。 作 为 高 等 教育 工作 者 ， 让 学 生 了 解 和 跟 上 最 新 技术 发 展 的 意义 不 
言 而 喻 。 而 深度 学 习 的 重要 性 ， 从 近来 国内 外 互联 网 巨 壁 对 未 来 的 展望 中 可 
er ae FRE PATERA, SAE BSCR SE 
H o 


然而 ， 目 前 深度 7 es ASF, JL Hive (@TensorFlowi F5 | 领 未 来 趋势 的 
狐 技 术 的 学 习 资 料 ， 普 遇 存 在 明显 缺憾 


其 一 ， 中 文 资 料 非 常 少 ， 而 且 信息 零散 、 不 成 系统 。 这 篇 文章 里 讲 一 个 算 
法 ， 那个 博客 里 介绍 一 个 应 用 ， 很 难 让 学 生 形成 一 个 完整 的 、 全 局 的 概念 体 


pa 


其 二 ， 已 有 的 深度 学 习 资 0 对 概率 、 统 计 等 数学 功底 有 很 高 
WEK, 不易 激 发 学 生 的 兴 


而 这 些 现 存 问题 ， 也 正 是 我 对 泽 宇 这 部 著作 寄予 厚望 
常 适合 高 校 学 生 走 近 深度 学 习 的 入 门 读物 。 因 为 它 从 实际 问题 出 发 ， 可 以 激 
发 读者 的 兴趣 ， 让 读者 可 以 快速 而 直观 地 享受 到 解决 问题 的 成 束 感 。 同 时 ， 
此 书 理论 与 实践 并 重 ， 既 介绍 了 深度 学 习 的 基本 概念 ， 为 更 加 深入 地 研究 深 
度 学 习 黄 定 基础 ; 又 哈 出 了 具体 的 TensorFlow 样 例 代码 让 读者 可 以 将 学 习 
成 果 直 接 运 用 到 实践 中 。 


我 非常 相信 也 衷心 希望 ， 有 志 参 与 深度 学 习 未 来 大 潮 的 蔗 莘 学 子 ， 能 凭借 此 
书 更 快速 、 更 扎实 地 开启 深度 学 习 之 旅 ， 并 通过 TensorFlow 来 实现 深度 学 习 
溃 用 算法 ， 从 而 登 堂 入室， 最 终 成 为 AI 的 真正 区 级 者 。 


aK En 


北京 大 学 信息 学 院 教授 
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“深度 学 习 ” 这 个 词 在 过 去 的 一 年 之 中 已 经 释 炸 了 媒体 、 技 术 博 客 甚 至 朋友 
疾 。 这 也 许 正 是 你 会 读 到 本 书 的 原因 之 一 。 数 十 年 来 ， 人 工 知 能 技术 虽 不 断 
发 展 ， 但 像 深 度 学 习 这 样 在 学 术 界 和 工业 界 皆 具 症 履 性 的 技术 实在 是 十 年 难 
遇 。 可 惜 的 是 ， 理 解 和 灵活 运用 深度 学 习 并 不 容易 ， 尤 其 古 其 复 灯 的 数学 模 
型 ， 让 不 少 感 兴趣 的 同学 “从 入 门 到 放弃 ”。 更 精 糕 的 是 ， 因 为 深度 学 习 技 术 
的 飞速 发 展 ， 而 写 书 、 出 版 的 过 程 又 非常 复 汪 ， 不 论 是 英文 还 是 中 文 ， 都 很 
难 找到 从 实战 出 发 的 深度 学 习 参 考 书 。 关 于 当前 最 新 最 火 的 深度 学 习 框 染 
TensorFlow 的 书籍 更 是 空缺 。 这 正 征 作 者 在 工作 之 余 ， 效 夜 写 这 本 书 的 动 
力 。 作 者 本 人 作为 一 枚 标准 码 农 、 创 业 党 ,希望 这 本 书 能 够 帮助 码 农 和 准 码 
农 们 绕 过 深度 学 习 复 洒 的 数据 公式 ， 通 过 本 书 的 大 量 样 例 代码 快速 上 手 深 度 
学 习 ， 解 决 工作 、 学 习 中 的 实际 问题 。 


2016 年 初 ， 作 者 和 小 伙伴 们 从 美国 谷歌 辞职 ， 回 到 祖国 杭州 联合 创办 了 才 云 
科技 (Caicloud.io) ， 为 企业 提供 人 工 智能 平台 和 解决 方案 ， 在 作者 回国 之 
初 ， 很 多 企业 都 展示 出 了 对 于 TensorFlow 浓 厚 的 兴趣 。 然 而 在 深度 交流 之 
后 ， 作 者 发 现 虽 然 TensorFlow 是 一 款 非常 容易 上 手 的 工具 ， 但 是 深度 学 习 的 
技术 目前 并 不 是 每 一 个 企业 都 掌握 的 。 为 了 让 更 多 的 个 人 和 企业 可 以 享受 到 
深度 学 习 技 术 带 来 的 福利 ， 作 者 与 电子 工业 出 版 社 的 张 春 雨 主编 一 拍 即 合 ， 
开始 了 本 书 的 撰写 工作 。 


使 用 TensorFlow 实 现 深度 学 习 是 本 书 重点 介绍 的 对 象 。 本 书 将 从 TensorFlow 的 
安 闭 开始 ， 逐 一 介绍 TensorFlow 的 基本 概念 、 使 用 TensorFlow 实 现 全 连接 深层 
神经 网 络 、 卷 积 神经 网 络 和 循环 神经 网 络 等 深度 学 习 算 法 。 在 介绍 使 用 
TensorFlow 实 现 不 同 的 深度 学 习 算法 的 同时 ， 作 者 也 深入 浅 出 地 介绍 了 这 些 
深度 学 习 算 法 背后 的 理论 ， 并 给 出 了 这 些 算法 可 以 解决 的 具体 问题 。 在 本 书 
中 ， 作 者 避 开 了 枯燥 复杂 的 数学 公式 ， 从 实际 问题 出 发 ， 在 实践 中 介绍 深度 
学 习 的 概念 和 TensorFlow 的 用 法 。 在 本 书 中 ， 作 者 还 介绍 了 TensorFlow 并 行 化 
T 流程 、TensorBoard 可 视 化 工具 以 及 市 GPU 的 分 布 式 TensorFlow 
用 方法 。 


TensorFlow 是 一 个 飞速 发 展 的 工具 。 本 书 在 写作 时 最 新 的 版 本 为 0.9.0， 然 而 

到 本 书 出 版 时 ， 合 歌 已 经 推出 了 TensorFlow 1.0.0。 为 了 让 广大 读者 更 好 地 理 
解 和 试用 书 中 的 样 例 代 码 ， 我 们 提供 了 一 个 公开 的 GitHub 代 码 库 来 维护 不 同 
TensorFlow 版 本 的 样 例 程序 。 该 代码 库 的 网 址 为 
https://github.com/caicloud/tensorflow-tutorial ° 4£ Caicloud $e (A) TensorFlow fi, 
象 cargo.caicloud.io/tensorflow/tensorflow:0.12.0 中 也 包含 了 本 书 的 样 例 代 码 。 
作者 应 心地 硕 望 各 位 读者 能 够 从 本 书 获 益 ， 这 也 是 对 我 们 最 大 的 文 持 和 鼓 
励 。 对 于 书 中 出 现 的 任何 错误 或 者 不 准确 的 地 方 ， 欢 迎 大 家 批评 指正 ， 并 发 
IAHBE zeyu@caicloud.io ° 


读者 也 可 登录 博文 视点 官网 http://www.broadview.com.cn 下 载 本 书 代 码 或 提交 
勘误 信息 。 一 旦 勘误 信息 被 作者 或 编辑 确认 ， 即 可 获得 博文 视点 奖励 积分 ， 
可 用 于 免 换 电子 书 。 读 者 可 以 随时 浏览 图 书页 面 ， 查 看 已 发 布 的 勘误 信息 。 
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小 结 
Ble ”深度 学 习 简 介 


随 着 AlphaGo 战 胜 李 世 石 ， 人 工 智能 和 深度 学 习 这 些 概念 已 经 成 为 一 个 非常 火 
的 话题 。 合 歌 (Google) 、 脸 书 (Facebook) 、 百 度 、 阿 里 巴巴 等 一 系列 国 
内 外 大 公司 纷纷 对 外 公开 宣布 了 人 工 智 能 将 作为 他 们 下 一 个 战略 重心 。 在 类 
似 AlphaGo、 无 人 芍 驶 汽车 等 最 狐 技 术 的 背后 ， 深 度 学 习 是 推动 这 些 技 术 发 展 
的 核心 力量 。“ 深 度 学 习 ” 是 本 书 的 核心 概念 。 通 过 阅读 本 章 ， 读 者 将 从 多 个 
角度 了 解 这 一 概念 。 人 工 知 能、 机 器 学 习 与 深度 学 习 这 几 个 关键 词 时 常 出 现 
在 媒体 新 闻 中 ， 并 错误 地 被 认为 是 等 同 的 概念 。1.1 广 将 介绍 人 工 智 能 、 机 器 
学 习 以 及 深度 学 习 的 概念 ， 并 着 重 解 析 它 们 之 间 的 关系 。 这 一 廊 将 从 不 同 领 
域 需要 解决 的 问题 入 手 ， 依 次 介绍 这 些 领 域 的 基本 概念 以 及 解决 领域 内 问题 
的 主要 思路 。 在 介绍 完 深度 学 习 基 本 的 概念 之 后 ，1.2 闻 将 完整 地 介绍 深度 学 
习 发 展 史 。 虽 然 “ 深 度 学 习 ” 这 个 名 词 是 在 最 近 几 年 才 提 出 ， 但 深度 学 习 基 于 
的 神经 网 络 算法 却 早 在 20 世 纪 40 年 代 束 出 现 了 。 这 一 市 将 会 介绍 神经 网 络 发 
展 过 程 中 的 重大 事件 ， 并 介绍 深度 学 习 人 研究 领域 的 发 展 历 程 。 


接着 ，1.3 节 将 从 计算 机 视觉 、 语 音 识别 、 自 然 语 言 处 理 和 人 机 博弈 四 个 不 同 
的 方向 介绍 目前 深度 学 习 的 应 用 。 从 2012 年 深度 学 习 被 成 功 应 用 于 图 像 识 别 
问题 以 来 ， 研 究 人 员 一 直 在 扩展 它 的 应 用 范围 和 影响 力 。 这 一 节 既 会 介绍 在 
不 同方 向 上 深度 学 习 在 学 术 界 取得 的 成 就 ， 也 会 介绍 工业 界 成 功 应 用 深度 学 
习 的 案例 。 最 后 ，1.4 节 将 引出 本 书 的 重点 一 一 TensorFlow。 TensorFlow 是 合 
歌 开 源 的 一 个 计算 框架 ， 该 计算 框架 可 以 很 好 地 实现 各 种 深度 学 习 算法 。 这 
一 节 将 简单 介绍 TensorFlow 的 特性 以 及 它 目 前 的 应 用 场景 。 也 将 对 比 不 同 的 
开源 深度 学 习 工 具 ， 并 通过 具体 的 数字 来 说 明 TensorFlow 相 比 其 他 工具 的 优 
势 以 及 作者 将 TensorFlow 作 为 本 书 介绍 对 象 的 原因 。 


1.1 人 工 智能 、 机 器 学 习 与 深度 学 习 人 ) 


从 计算 机 发 明之 初 ， 人 们 就 希望 它 能 够 帮助 甚至 代替 人 类 完成 重复 性 劳作 。 
利用 巨大 的 存储 空间 和 超 高 的 运算 速度 ， 计 算 机 已 经 可 以 非常 轻易 地 完成 一 
些 对 于 人 类 非常 困难 ， 但 对 计算 机 相对 简单 的 问题 。 比 如 ， 统 计 一 本 书 中 不 
同 单词 出 现 的 次 数 ， 存 储 一 个 图 书馆 中 所 有 的 藏书 ， 或 是 计算 非常 复 洒 的 数 
学 公式 ， 都 可 以 轻松 通过 计算 机 解决 。 然 而 ， 一 些 人 类 通过 直觉 可 以 很 快 解 
决 的 问题 ， 目 前 却 很 难 通 过 计算 机 解决 。 这 些 问题 包括 目 然 语言 理解 、 图 像 
识别 、 语 音 识别 ， 等 等 。 而 它们 喊 是 人 工 智 能 需要 解决 的 问题 。 


计算 机 要 像 人 类 一 样 完 成 更 多 智能 的 工作 ， 需 要 掌握 关于 这 个 世界 海量 的 知 
识 。 比 如 要 实现 汽车 目 动 匠 驶 ， 计 算 机 至 少 需要 能 够 判断 哪里 是 路 ， 哪 里 是 
障碍 物 。 这 个 对 人 类 非常 直观 的 东西 ， 但 对 计算 机 却 是 相当 困难 的 。 路 有 水 
泥 的 、 沥 青 的 ， 也 有 石子 的 甚至 土路 。 这 些 不 同 材 质 铺 成 的 路 在 计算 机 看 来 
差距 非常 大 。 如 何 让 计算 机 掌握 这 些 人 类 看 起 来 非常 直观 的 常识 ， 对 于 人 工 
智能 的 发 展 是 一 个 巨大 的 挑战 。 很 多 早期 的 人 工 智 能 系统 只 能 成 功 应 用 于 相 
对 特定 的 环境 (specific domain) ， 在 这 些 特 定 环境 下 ， 计 算 机 需要 了 解 的 知 
识 很 容易 被 严格 并 且 完 整地 定义 。 例 如 ，IBM 的 深蓝 (Deep Blue) 在 1997 年 
打败 了 国际 象棋 冠军 卡 斯 帕 罗 夫 。 设 计 出 下 象棋 软件 是 人 工 知 能 史上 的 重大 
成 束 ， 但 其 主要 挑战 不 在 于 让 计算 机 掌握 国际 象棋 中 的 规则 。 国 际 象 棋 是 一 
个 特定 的 环境 ， 在 这 个 环境 中 ， 计 算 机 只 需要 了 解 每 一 个 棋子 规定 的 行动 范 
围 和 行动 方法 即 可 。 虽 然 计 算 机 早 在 1997 年 就 可 以 击败 国际 象棋 的 世界 冠 
军 ， 但 是 直到 20 年 后 的 今天 ， 让 计算 机 实现 大 部 分 成 年 人 都 可 以 完成 的 汽车 
蜀 驶 却 仍然 依旧 十 分 困难 。 


为 了 使 计算 机 更 多 地 掌握 开放 环境 (open domain) 下 的 知识 ， 研 究 人 员 进 行 
了 很 多 党 试 。 其 中 一 个 影响 力 非 常 大 的 领域 是 知识 图 库 (Ontology %) 
WordNet 是 在 开放 环境 中 建立 的 一 个 较 大 且 有 影响 力 的 知识 图 库 。WordNet 是 
由 普林斯顿 大 学 (Princeton University) 的 George Armitage Miller 教 授 和 
Christiane Fellbaum 教 授 带 领 开发 的 ， 它 将 155287 个 单词 整理 为 了 117659 个 近 
义 词 集 (synsets) 。 基 于 这 些 近 义 词 集 ，WordNet 进 一 步 定 义 了 近义词 集 之 间 
的 关系 。 比 如 同义词 集 “ 狗 ”属于 同义词 集 *“ 犬 科 动 物 ”， 他 们 之 间 存 在 种 属 关 
系 (hypernyms/hyponyms *-) 。 除 了 WordNet， 也 有 不 少 研究 人 员 党 试 将 
Wikipedia 中 的 知识 整理 成 知识 图 库 。 合 歌 的 知识 图 库 就 是 基于 Wikipedia 创 建 
的 。 


虽然 使 用 知识 图 库 可 以 让 计算 机 很 好 地 掌握 人 工 定义 的 知识 ， 但 建立 知识 民 
库 一 方面 需要 人 花费 大 量 的 人 力 物 力 ， 男 一 方面 可 以 通过 知识 图 库 方 式 明确 害 
义 的 知识 有 限 ， 不 是 所 有 的 知识 都 可 以 明确 地 定义 成 计算 机 可 以 理解 的 固定 
格式 。 很 大 一 部 分 无 法 明确 定义 的 知识 ， 就 是 人 类 的 经 验 。 比 如 我 们 需要 判 


断 一 封 邮 件 是 否 为 垃圾 邮件 ， 会 综合 考虑 邮件 发 出 的 地 址 、 邮 件 的 标题 、 邮 
件 的 内 容 以 及 邮件 收 件 人 的 长 度 ， 等 等 。 这 是 收 到 无 数 垃圾 邮件 骚扰 之 后 总 
结 出 来 的 经 验 。 这 个 经 验 很 难以 固定 的 方式 表达 出 来 ， 而 且 不 同人 对 垃圾 邮 
件 的 判断 也 会 不 一 样 。 如 何 让 计算 机 可 以 跟 人 类 一 样 从 历史 的 经 验 中 获取 新 
的 知识 呢 ? 这 吏 是 机 融 学 习 需 要 解决 的 问题 。 


卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 的 Tom Michael Mitchell 教 授 在 
1997 年 出 版 的 书籍 Machine Learning 和 [中 对 机 器 学 习 进 行 过 非常 专业 的 定义 ， 

这 个 定义 在 学 术 界 内 被 多 次 引用 。 在 这 本 书 中 对 机 器 学 习 的 定义 为 “如 有 果 一 个 
程序 可 以 在 任务 T 上 ， 随 着 经 验 E 的 增加 ， 效 果 P 也 可 以 随 之 增加 ， 则 称 这 个 
程序 可 以 从 经 验 中 学 习 ”。 通 过 垃圾 邮件 分 类 的 问题 来 解释 机 器 学 习 的 定义 。 
在 垃圾 邮件 分 类 问题 中 , “一 个 程序 ” 指 的 是 需要 用 到 的 机 器 学 习 算法 ， 比 如 
逻辑 回归 算法 ; “任务 T 是 指 区 分 垃圾 邮件 的 任务 ; “经 验 E" 为 已 经 区 分 过 是 
否 为 垃圾 邮件 的 历史 邮件 ， 在 监督 式 机 咒 学 习 问 题 中 ， 这 也 被 称 之 为 训练 数 
据 ; “ 殖 果 P” 为 机 器 学 习 算 法 在 区 分 是 否 为 垃圾 邮件 任务 上 的 正确 率 。 


在 使 用 逻辑 回归 算法 解决 垃圾 邮件 分 类 问题 时 ， 会 完 从 每 一 封 邮 件 中 抽取 对 
分 类 结果 可 能 有 影响 的 因素 ， 比 如 说 上 文 提 到 的 发 邮件 的 地 址 、 邮 件 的 标题 
及 收 件 人 的 长 度 ， 等 等 。 每 一 个 因素 说 称 之 为 一 个 特征 (feature) 。 人 逻辑 回 
归 算 法 可 以 从 训练 数据 中 计算 出 每 个 特征 和 预测 结果 的 相关 度 。 比 如 在 垃圾 
邮件 分 类 问题 中 ， 可 能 会 发 现 如 果 一 个 邮件 的 收 件 人 越 多 ， 那 么 邮件 为 垃圾 
邮件 的 概率 也 就 越 高 。 在 对 一 封 未 知 的 邮件 做 判断 时 ， 人 逻辑 回归 算法 会 根据 
从 这 封 邮 件 中 抽取 得 到 的 每 一 个 特征 以 及 这 些 特 征 和 垃圾 邮件 的 相关 度 来 判 
断 这 封 邮 件 是 否 为 垃圾 邮件 。 


在 大 部 分 情况 下 ， 在 训练 数据 达到 一 定数 量 之 前 ， 越 多 的 训练 数据 可 以 使 逻 
辑 回 归 算 法 对 未 知 邮 件 做 出 的 判断 越 精 准 。 也 就 是 说 逻辑 回归 算法 可 以 根据 
训练 数据 (经 验 E) 提高 在 垃圾 邮件 分 类 问题 (任务 T) 上 的 正确 率 (效果 
P) 。 之 所 以 说 在 大 部 分 情况 下 ， 是 因为 逻辑 回归 算法 的 效果 除了 依赖 于 训练 
数据 ， 也 依赖 于 从 数据 中 提取 的 特征 。 假 设 从 邮件 中 抽取 的 特征 只 有 邮件 发 
送 的 时 间 ， 那 么 即使 有 再 多 的 训练 数据 ， 逻 辑 回归 算法 也 无 法 很 好 地 利用 。 
这 是 因为 邮件 发 送 的 时 间 和 邮件 是 否 为 垃圾 邮件 之 间 的 关联 不 大 ， 而 逻辑 回 
oo ee o 这 也 是 很 多 传统 机 器 学 习 算 法 的 
一 个 共同 的 旧 题 


类 似 从 邮件 中 提取 特征 ， 如 何 数字 化 地 表达 现实 世界 中 的 实体 ， 一 直 是 计算 
机 科学 中 一 个 非常 重要 问题 。 如 末 将 图 书馆 中 的 图 书 名 称 储存 为 结构 化 的 数 
据 ， 比 如 储存 在 Excel 表 格 中 ， 那 么 可 以 非常 容易 地 通过 书 名 查询 一 本 书 古 否 
在 图 书馆 中 。 如 采 图 书 的 书 名 都 是 存在 非 结构 化 的 图 片 中 ， 那 么 要 完成 书 名 
查找 任务 的 难度 将 大 大 增加 。 类 似 的 道理 ， 如 何 从 实体 中 提取 特征 ， 对 于 很 
多 传统 机 看 学 习 算 法 的 性 能 有 巨大 影响 。 图 1-1 展 示 了 一 个 简单 的 例子 。 如 果 


通过 笛 卡 尔 坐 标 系 (cartesian coordinates) 来 表示 数据 ， 那 么 不 同 颜色 的 结 点 
无 法 被 一 条 直线 划分 。 如 果 将 这 些 点 映射 到 极 角 坐标 系 (polar 
coordinates) ， 那 么 使 用 直线 划分 就 很 容易 了 。 同 样 的 数据 使 用 不 同 的 表达 方 
式 会 极 大 地 影响 解决 问题 的 难度 。 一 旦 解决 了 数据 表达 和 特征 提取 ， 很 多 人 
工 智 能 任务 也 就 解决 了 909% ° 
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图 1-1 不 同 的 数据 表达 对 使 用 直线 划分 不 同 颜 色 结 点 的 难度 影响 


然而 ， 对 许多 机 融 学 习 问 题 来 说 ， 竺 征 提取 不 是 一 件 簿 单 的 事情 。 在 一 些 复 
杂 问 题 上 ， 要 通过 人 工 的 方式 设计 有 效 的 特征 集合 ， 需 要 很 多 的 时 间 和 精 
力 ， 有 时 甚至 需要 整个 领域 数 十 年 的 研究 投入 。 例 如 ， 假 设想 从 很 多 照片 中 
识别 汽车 。 现 在 已 知 的 是 汽车 有 轮子 ， 所 以 希望 在 图 片 中 抽取 “图 片 中 古 否 出 
现 了 轮子 ”这 个 特征 。 但 实际 上 ， 要 从 图 片 的 像素 中 描述 一 个 轮子 的 模式 是 非 
常 难 的 。 虽 然 车 轮 的 形状 很 镜 单 ， 但 在 实际 图 片 中 ， 车 轮 上 可 能 会 有 来 自 车 
吴 的 阴影 、 金 属 车 轴 的 反光 ， 周 围 物 品 也 可 能 会 部 分 遮挡 车 轮 。 实 际 图 片 中 
各 种 不 确定 的 因素 让 我 们 很 难 直接 抽取 这 样 的 特征 。 


既然 人 工 的 方式 无 法 很 好 地 抽取 实体 中 的 特征 ， 那 么 是 否 有 目 动 的 方式 呢 ? 
答案 是 肯定 的 。 深 度 学 习 解决 的 核心 问题 之 一 束 是 目 动 地 将 简单 的 特征 组 合 
成 更 加 复杂 的 特征 ， 并 使 用 这 些 组 合 特征 解决 问题 。 深 度 学 习 是 机 各 学 习 的 
一 个 分 文 ， 它 除了 可 以 学 习 特 征 和 任务 之 间 的 关联 以 外 ， 还 能 目 动 从 简单 竺 
征 中 提取 更 加 复 洒 的 特征 。 图 1-2 中 展示 了 深度 学 习 和 传统 机 器 学 习 在 流程 上 
的 差异 。 如 图 1-2 所 示 ， 深 度 学 习 算 法 可 以 从 数据 中 学 习 更 加 复 洒 的 特征 表 
达 ， 使 得 最 后 一 步 权 重 学 习 变 得 更 加 人 简单 且 有 效 。 在 图 1-3 中 ， 展 示 了 通过 深 


度 学 习 解 决 图 像 分 类 问题 的 具体 样 例 。 深 度 学 习 可 以 一 层 一 层 地 将 简单 特征 
逐步 转化 成 更 加 复杂 的 特征 ， 从 而 使 得 不 同类 别 的 图 像 更 加 可 分 。 比 如 图 1-3 
中 展示 了 深度 学 习 算法 可 以 从 图 像 的 像素 特征 中 逐渐 组 合 出 线条 、 边 、 角 、 
简单 形状 、 复 杂 形 状 等 更 加 有 效 的 复杂 特征 。 


传统 机 器 学 习 算 法 le = 
P 基础 特征 :复杂 。 
深度 学 习 算法 | 


图 1-2 ”传统 机 器 学 习 和 深度 学 习 流 程 对 比 
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图 1-3 ”深度 学 习 在 图 像 分 类 问题 上 的 算法 流程 样 例 


早期 的 深度 学 习 受 到 了 神经 科学 的 启发 ， 它 们 之 间 有 非常 密切 的 联系 。 科 学 
家 们 在 神经 科学 上 的 发 现 使 得 我 们 相信 深度 学 习 可 以 胜任 很 多 人 工 智能 的 任 
务 。 神 经 科学 家 发 现 ， 如 果 将 小 日 鼠 的 视觉 神经 连接 到 听觉 中 相 ， 一 段 时 间 
之 后 小 鼠 可 以 习 得 使 用 听觉 中 枢 * 看 ”世界 。 这 说 明 昌 然 哺乳 动物 大 脑 分 为 了 
很 多 区 域 ， 但 这 些 区 域 的 学 习 机 制 却 是 相似 的 。 在 这 一 假想 得 到 验证 之 前 ， 
机 器 学 习 的 研究 者 们 通常 会 为 不 同 的 任务 设计 不 同 的 算法 。 而 且 直 到 今天 ， 
学 术 机 构 的 机 妖 学 习 领 域 也 被 分 为 了 目 然 语言 处 理 、 计 算 机 视觉 和 语音 识别 
等 不 同 的 实验 室 。 因 为 深度 学 习 的 通用 性 ， 深 度 学 习 的 人 研究 者 往往 可 以 跨越 
多 个 研究 方向 甚至 同时 活路 于 所 有 的 研究 方向 。 下 面 的 1.3 市 将 具体 介绍 深度 
学 习 在 不 同方 同 的 应 用 。 


虽然 深度 学 习 领 域 的 研究 人 员 相 比 其 他 机 器 学 习 领 域 更 多 地 受到 了 大 脑 工作 
原理 的 局 发 ， 而 且 媒 体 界 也 经 常 强调 深度 学 习 算 法 和 大 脑 工 作 原理 的 相似 
性 ， 但 现代 深度 学 习 的 发 展 并 不 拘泥 于 模拟 人 脑 神经 元 和 人 脑 的 工作 机 理 。 


模拟 人 类 大 脑 也 不 再 是 深度 学 习 研 究 的 主导 方向 。 我 们 不 应 该 认为 深度 学 习 
征 在 试图 模仿 人 类 大 脑 。 目 前 科学 家 对 人 类 大 脑 学 习 机 制 的 理解 还 不 足以 为 
当下 的 深度 学 习 模 型 提供 指导 。 


现代 的 深度 学 习 已 经 超越 了 神经 科学 观点 ， 它 可 以 更 广泛 地 适用 于 各 种 并 不 
是 由 神经 网 络 启 发 而 来 的 机 器 学 习 框 架 。 值 得 注意 的 是 ， 有 一 个 领域 的 研究 
者 试图 从 算法 层 理解 大 脑 的 工作 机 制 ， 它 不 同 于 深度 学 习 的 领域 ， 被 称 为 * 计 
算 神 经 学 ” (computational neuroscience) 。 深 度 学 习 领 域 主要 关注 如 何 搭建 智 
能 的 计算 机 系统 ， 解 决 人 工 智 能 中 遇 到 的 问题 。 计 算 神 经 学 则 主要 关注 如 何 
建立 更 准确 的 模型 来 模拟 人 类 大 脑 的 工作 © 


总 的 来 说 ， 人 工 乔 能 、 机 器 学 习 和 深度 学 习 是 非常 相关 的 儿 个 领域 。 图 1-4 总 
结 了 它们 之 间 的 关系 。 人 工 智 能 是 一 类 非常 广泛 的 问题 ， 机 器 学 习 是 解决 这 
类 问题 的 一 个 重要 手段 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 支 。 在 很 多 人 工 智 
能 问题 上 ， 深 度 学 习 的 方法 突破 了 传统 机 器 学 习 方法 的 瓶 贷 ， 推 动 了 人 工 吞 
能 领域 的 发 展 。 


图 1-4 ”人工 智 能 、 机 器 学 习 以 及 深度 学 习 之 间 的 关系 图 


12 深度 学 习 的 发 展 历程 


很 多 读者 可 能 会 认为 深度 学 习 是 一 门 新 技术 ， 所 以 听 到 “深度 学 习 的 历史 ”也 
许 会 有 些 惊 讶 。 事 实 上 ， 目 前 大 家 所 熟知 的 “深度 学 习 ” 基 本 上 是 深层 神经 网 
络 的 一 个 代名词 ， 而 神经 网 络 技术 可 以 追溯 到 1943 年 。 深 度 学 习 之 所 以 看 起 
来 像 是 一 门 新 技术 ， 一 个 很 重要 的 原因 是 它 在 21 世 纪 初 期 并 不 流行 。 神 经 网 
络 的 发 展 史 大 致 可 以 分 为 三 个 阶段 ， 在 本 节 中 ， 我 们 将 简单 介绍 神经 网 络 发 
展 历史 上 的 这 三 个 阶段 。 


早期 的 神经 网 络 模 型 类 似 于 仿生 机 器 学 习 ， 它 试图 模仿 大 脑 的 学 习 机 理 。 最 
早 的 神经 网 络 数 学 模型 是 由 Warren McCulloch 教授 和 Walter Pitts 教 授 于 1943 
年 在 论文 A logical calculus of the ideas immanent in nervous activity 全 中 提出 
的 。 在 论文 中 ，Warren McCulloch 教授 和 Walter Pitts 教 授 模拟 人 类 大 脑 神 经 
元 的 结构 提出 了 McCulloch-Pitts Neuron 的 计算 结构 。 图 1-5 对 比 了 人 类 神经 元 
结构 和 McCulloch-Pitts Neuron 结 构 。McCulloch-Pitts Neuron 结 构 大 致 模拟 了 
人 类 神经 元 的 工作 原理 ， 它 们 都 有 一 些 输入 ， 然 后 将 输入 进行 一 些 变换 后 得 
到 输出 结果 。 虽 然 人 类 神经 元 处 理 输入 信号 的 原理 目前 还 对 我 们 来 说 还 不 是 
完全 清晰 ， 但 McCulloch-Pitts Neuron 结 构 使 用 了 简单 的 线性 加 权 和 的 方式 来 
模拟 这 个 变换 。 将 n 个 输入 值 提 供给 McCulloch-Pitts Neuron 结 构 后 ， 
McCulloch-Pitts Neuron 结 构 会 Hh 过 n 个 权 重 


Wi W732 ,LW 来 计算 这 n 个 输入 的 加 权 和 ， 然 后 用 这 个 
加 权 和 经 过 一 个 羡 值 画 数 得 到 一 个 0 或 1 的 输出 。 


树 突 输入 权重 
铀 突 未 梢 


= 加 权 和 阔 值 函数 输出 
y 


=. 
I> ES 
3 
ff 
A 
f 


一 


; J 
Ws / 


(a) 人 类 神经 元 结构 (b) McCulloch-Pitts Neuron 结 构 


图 1-5 “人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结 构 对 比 图 


举 一 个 具体 的 例子 来 说 明 McCulloch-Pitts Neuron 结 构 是 如 何 解决 实际 问题 
的 。 假 设 需 要 解决 的 问题 是 判断 邮件 是 否 为 垃圾 邮件 ， 那 么 首先 可 以 将 从 邮 


件 里 提取 的 n 个 特征 值 作为 输入 传 入 McCulloch-Pitts Neuron24#4 ° McCulloch- 
Pitts Neuron 结 构 经 过 加 权 和 及 病 值 画 数 处 理 可 以 得 到 一 个 0 或 者 1 的 输出 。 如 
果 这 个 输出 为 0， 那 么 相应 的 邮件 为 垃圾 邮件 ; 相反， 如 果 这 个 输出 为 1， 那 
么 相应 的 邮件 不 是 垃圾 邮件 。 


为 了 使 这 种 方法 可 以 精确 地 判断 垃圾 邮件 ， 我 们 需要 对 McCulloch-Pitts 
Neuron 结 构 中 的 权重 进行 特殊 的 设置 。 手 动 设置 这 些 权 重 自然 是 一 种 选择 ， 
但 通过 人 类 经 验 设置 权重 的 方式 既 磋 烦 又 很 难 达 到 最 优 的 效果 。 为 了 让 计算 
机 能够 更 加 自动 且 更 加 合理 地 设置 权重 大 小 ，Frank Rosenblatt 教 授 于 1958 年 
提出 了 感知 机 模型 (perceptron) 。 感 知 机 是 首 个 可 以 根据 样 例 数据 来 学 习 特 
征 权 重 的 模型 。 虽 然 McCulloch-Pitts Neuroni ty A RAUR 极 大 地 影响 了 
现代 机 恬 学 习 ， 但 是 它们 也 存在 非常 大 的 局 限 性 


1969 年 由 Marvin Minsky 教 授 和 Seymour Papert 教 授 出 版 的 Perceptrons: An 
Introduction to Computational Geometry 一 书 中 ， 证 明了 感知 机 模型 只 能 解决 线 
性 可 分 问题 ， 第 4 章 中 将 会 更 加 详细 地 介绍 线性 模型 、 线 性 可 分 问题 。 并 明确 
指出 了 感知 机 无 法 解决 异 或 问题 。 而 AE 中 也 指出 在 当时 的 计算 能 力 下 ， 实 
现 多 层 的 神经 网 络 是 不 可 能 的 事情 。 这 些 局 限 性 导致 了 整个 学 术 界 对 生物 启 
发 的 机 器 学 习 模型 的 择 击 。 在 书 中 ，Marvin Minsky 教 授 和 Seymour 了 Papert 教 授 
甚至 做 出 了 :基于 感知 机 的 研究 注定 将 失败 。 的 结论 。 这 导致 了 神经 网 络 的 第 
本 在 之 后 的 十 多 年 内 ， 基 于 神经 网 络 的 研究 几乎 处 于 停 请 状 


直到 20 世 纪 80 年 代 末 ， 第 二 波 神经 网 络 研 究 因 分 布 式 知识 表达 (distributed 
representation) 和 神经 网 络 反 癌 传 播 算法 的 提出 而 兴起 。 分 布 式 的 知识 表达 的 
a 应 该 通过 多 个 神经 元 (neuron) 来 表 

而 模型 中 的 每 一 个 神经 元 也 应 该 参与 表达 多 个 概念 。 pian. o 
eU re ROE 的 汽车 ， 那 么 可 以 有 两 种 方法 。 第 一 种 方 
法 是 设计 一 个 模型 使 得 模型 中 每 一 个 神经 元 对 应 一 着 颜色 和 汽车 型 号 的 组 
T 那么 这 样 的 表达 方式 
需要 nxm 个 神经 元 。 男 一 种 方法 是 使 用 一 些 神经 元 专门 表达 颜色 ， 比 如 “ 白 
色 ”， 另 外 一 Hepes 又 元 专门 表达 汽车 型 号 ， 比 如 “小 轿车 ”。 这 样 “白色 的 小 轿 
车 ”的 概念 可 以 通过 这 两 个 神经 元 的 组 合 来 表达 。 这 种 方式 只 需要 nxm 个 神经 
元 跳 可 以 表达 所 有 概念 。 而 且 即 使 在 训练 数据 中 没有 出 现 概念 “红色 的 卡 
模型 能 够 习 得 “红色 ”和 “卡车 ”的 概念 ， 它 也 可 以 推广 到 概念 “红色 的 
FE” o 分布 式 知识 表达 大 大 加 强 了 模型 的 表达 能 力 ， 让 神经 网 络 从 宽度 的 方 
向 走向 了 深度 的 方向 。 这 为 之 后 的 深度 学 习 黄 定 了 基础 。 在 第 paT Ria 
eee E en ee 等 线性 不 可 
分 问题 的 。 
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除了 解决 了 线性 不 可 分 问题 ， 在 20 世 纪 80 年 代 末 ， 研 究 人 员 在 降低 训练 神经 
网 络 的 计算 复杂 度 上 也 取得 了 突破 性 成 天。David Everett Rumelhart 教 授 、 
Geoffrey Everest Hinton 教 授 和 Ronald J. Williams 教 授 于 1986 年 在 自然 杂志 上 发 
表 的 Learning Representations by Back-propagating errors 文章 中 首次 提出 了 反 
向 传播 的 算法 (back propagation) ， 此 算法 大 幅 降 低 了 训练 神经 网 络 所 需要 
的 时 间 。 直 到 今天 ， 反 向 传播 算法 仍然 是 训练 神经 网 络 的 主要 方法 。 在 神经 
网 络 训练 算法 改进 的 同时 ， 计 算 机 的 飞速 发 展 也 使 得 80 年 代 末 的 计算 能 力 相 
比 70 年 代 有 了 突飞猛进 的 增长 。 于 是 神经 网 络 在 80 年 末 到 90 年 代 初 又 迎 来 了 
发 展 的 高 峰 期 。 如 今 使 用 得 比较 多 的 一 些 神 经 网 络 结构 ， 比 如 卷 积 神经 网 络 
和 循环 神经 网 络 ， 在 这 段 时 间 都 得 到 了 很 好 的 发 展 。Sepp Hochreiter 教 授 和 
Juergen Schmidhuber 教授 于 1991 年 提出 的 LSTM 模型 (long short-term 
memory) 可 以 有 效 地 对 较 长 的 序列 进行 建 模 ， 比 如 一 句 话 或 者 一 段 文 章 。 直 
到 今天 ，LSTM 都 是 解决 很 多 自然 语言 处 理 、 机 器 翻译 、 语 首 识别 、 时 序 预 测 
nf IAL 效 的 方法 。 在 第 8 章 中 将 更 加 详细 地 介绍 循环 神经 网 络 和 LSTM 模 


然而 ， 在 神经 网 络 发 展 的 同时 ， 传 统 的 机 恬 学 习 算 法 也 有 了 突破 性 的 进展 ， 
并 在 90 年 代 末 逐步 超越 了 神经 网 络 ， 成 为 当时 机 器 学 习 领 域 最 常用 的 方法 。 
以 手写 体 识别 为 例 ， 在 1998 年 ， 使 用 支持 向 量 机 (support vector machine) 的 
算法 可 以 把 错误 率 降 低 到 0.8%。 这 样 的 精确 度 是 当时 的 神经 网 络 无 法 达到 
的 。 导 致 这 种 情况 主要 有 两 个 原因 。 首 先 ， 虽然 训练 神经 网 络 的 算法 得 到 了 
改进 ， 但 在 当时 的 计算 资源 下 ， 要 训练 深层 的 神经 网 络 仍然 是 非常 困难 的 。 
其 次 ， 当 时 的 数据 量 比 较 小 ， 无 法 满足 训练 深层 神经 网 络 的 需求 。 


随 着 计算 机 性 能 的 进一步 提高 ， 以 及 云 计算 、GPU 的 出 现 ， 到 2010 年 左右 ， 

计算 量 已 经 不 再 是 阻碍 神经 网 络 发 展 的 问题 。 与 此 同时 ， 随 着 互联 网 + 的 发 
展 ， 获 取 海 量 数据 也 不 再 困难 。 这 让 神经 网 络 所 面临 的 几 个 最 大 问题 都 得 到 
解决 ， 于 是 神经 网 络 的 发 展 也 迎 来 了 新 的 高 潮 。 在 2012 年 ImageNet 举 办 的 图 
像 分 类 竞赛 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC) 

F, FH Alex Krizhevsky@4% 3 LAVA EE >) A AlexNetimis SL e AZ 
后 ， 深 度 学 习 (deep learning) 作为 深层 神经 网 络 的 代名词 被 大 家 所 熟知 。 深 
度 学 习 的 发 展 也 开局 了 一 个 AI 的 新 时 代 。 图 1-6 展 示 了 “deep learning” 这 个 词 
在 最 近 十 年 谷歌 搜索 的 热度 趋势 。 从 图 中 可 以 看 出 ， 从 2012 年 之 后 ， 深 度 学 
习 的 热度 呈 指 数 级 上 升 ， 到 2016 年 时 ， 深 度 学 习 已 经 成 为 了 谷歌 上 最 热门 的 
搜索 词 。 在 2013 年 RESUME (MIT) 评 为 了 年 度 十 大 科技 突破 
之 一 旦 。 如 今 ， 深 度 学 习 已 经 从 最 初 的 图 像 识别 领域 扩展 到 了 机 器 学 习 的 各 
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图 1-6 “deep learning” 最 近 十 年 在 谷歌 搜索 的 热度 趋势 


(此 图 片 基于 于 谷歌 趋势 : https://www.google.com/trends/， 词 汇 的 热度 按 0-100 分 为 100 个 等 级 : 


0 表示 最 低 的 热度 ，100 表 示 最 流行 的 搜索 词 ) 


1.3 ”深度 学 习 的 应 用 


深度 学 习 最 早 兴 起 于 图 像 识 别 ， 但 是 在 短 短 几 年 时 间 内 ， 深 度 学 习 推广 到 了 
机 器 学 习 的 各 个 领域 。 如 今 ， 深 度 学 习 在 很 多 机 器 学 习 领 域 都 有 非常 出 色 的 
表现 ， 在 图 像 识 别 、 语 音 识 别 、 音 频 处 理 、 目 然 语言 处 理 、 机 器 人 、 生 物 信 
尽 处 理 、 化 学 、 电 脑 游戏 、 搜 索引 敬 、 网 络 广告 投放 、 医 学 目 动 诊断 和 金融 
等 各 大 领域 均 有 应 用 。 本 万 将 选取 几 个 深度 学 习 应 用 比较 广泛 的 领域 进行 详 
细 的 介绍 。 但 深度 学 习 的 应 用 不 仅 限 于 本 市 中 所 介绍 的 领域 ， 在 每 个 领域 中 
的 应 用 也 不 限于 列举 出 的 几 个 方面 。 


1.3.1 计算 机 视觉 


计算 机 视觉 是 深度 学 习 技 术 最 早 实现 突破 性 成 就 的 领域 。 在 1.2 市 中 介绍 过 ， 
随 着 2012 年 深度 学 习 算 法 AlexNet 启 得 图 像 分 类 比赛 ILSVRC (ImageNet Large 
Scale Visual Recognition Challenge) 冠军 ， 深 度 学 习 开始 受到 学 术 界 广泛 的 天 
注 。LLSVRC 是 基于 ImageNet 图 像 数据 集 举办 的 图 像 识别 技术 比赛 ， 这 个 比赛 
在 计算 机 视觉 领域 有 极 高 的 影响 力 。 


图 1-7 展 示 了 历年 ILSVRC 比 赛 的 情况 。 从 图 1-7 中 可 以 看 到 ， 在 深度 学 习 被 使 
用 之 前 ， 传 统计 算 机 视觉 的 方法 在 ImnageNet 数 据 集 上 最 低 的 Top5 错 误 率 为 
26% 巴 。 从 2010 年 到 2011 年 ， 基 于 传统 机 器 学 习 的 算法 并 没有 带 来 正确 率 的 大 
幅 提 升 。 在 2012 年 时 ，Geoffrey Everest Hinton 教 授 的 研究 小 组 利用 深度 学 习 
技术 将 ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 到 了 16%。 而且，AlexNet 深 度 学 


习 模 型 只 是 一 个 开始 ， 在 2013 年 的 比赛 中 ， 排 名 前 20 的 算法 都 使 用 了 深度 学 
习 。 从 2013 年 之 后 ，ILSVRC 上 基本 就 只 有 深度 学 习 算法 参赛 了 。 


从 2012 年 到 2015 年 间 ， 通 过 对 深度 学 习 算 法 的 不 断 研究 ，ImageNet 图 像 分 类 
的 错误 率 以 每 年 4% 的 速度 递减 。 这 说 明 深 度 学 习 完 全 打破 了 传统 机 器 学 习 算 
法 在 图 像 分 类 上 的 瓶颈 ， 让 图 像 分 类 问题 得 到 了 更 好 的 解决 。 如 图 1-7 所 示 ， 
到 2015 年 时 ， 深 度 学 习 算 法 的 错误 率 为 4%6， 已 经 成 功 超越 了 人 工 标注 的 错误 
率 (5%) ， 实 现 了 计算 机 视觉 研究 领域 的 一 个 突破 。 


在 ImageNet 数 据 集 上 ， 深 度 学 习 不 仅 突 破 了 图 像 分 类 的 技术 瓶颈 ， 同 时 也 突 
破 了 物体 识别 的 技术 撼 贷 。 物 体 识 别 的 难度 比 图 像 分 类 更 高 。 图 像 分 类 问题 
只 需 判断 图 片 中 包含 哪 一 种 物体 。 但 在 物体 识别 问题 中 ， 需 要 给 出 所 包含 物 
体 的 具体 位 置 。 而 且 一 张 图 片 中 可 能 出 现 多 个 需要 识别 的 物体 。 图 1-8 展 示 了 
ILSVRC2013 物 体 识别 数据 集中 的 样 例 图 片 。 每 一 张 图 片 中 所 有 可 以 被 识别 的 
物体 都 被 不 同 颜 色 的 方 框 标注 了 出 来 。 在 2013 年 时 ， 使 用 传统 机 器 学 习 算 法 
可 以 达到 的 MAP (mean average precision) 鱼 值 为 0.23。2016 年 时 ， 使 用 了 6 种 
不 同 深度 学 习 模 型 的 集成 算法 (ensemble algorithm) 成 功 将 MAP 提 高 到 了 
0.66 o {9 


图 1-7 ”历年 ILSVRC 图 像 分 类 比赛 最 佳 算法 的 错误 率 


图 1-8 ”ILSVRC2013 物 体 识 别 数据 集中 的 样 例 图 片 钾 


在 技术 革新 的 同时 ， 工 业界 也 将 图 像 分 类 、 物 体 识别 应 用 于 各 种 产品 中 了 。 
在 谷歌 ， 图 像 分 类 、 物 体 识别 技术 已 经 被 广泛 应 用 于 谷歌 无 人 轨 驶 车 、 
YouTube、 合 歌 地 图 、 合 歌 图像 搜 索 等 产品 中 。 图 1-9 中 展示 了 使 用 合 歌 图 像 
搜索 来 辨别 动物 。 合 歌 通过 图 像 处 理 拉 术 可 以 归纳 出 图 片 中 的 主要 内 容 并 实 
现 以 图 搜 图 的 功能 。 这 些 技术 在 国内 的 百度 、 阿 里 、 腾 讯 等 科技 公司 也 已 经 
得 到 了 广泛 的 应 用 。 
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Google = 到 1.jpg husky with blue eyes 咎 


All Images Shopping More ¥ Search tools 


About 20,500,000 results (1.43 seconds) 


Image size 
~ 282 x 179 
5 Find other sizes of this image: 
> All sizes - Large 


Best guess for this image: husky with blue eyes 
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(a) 在 谷歌 图 片 搜索 中 提供 一 张 哈 士 奇 (一 种 狗 ) 的 图 片 ， 得 到 的 结果 为 husky with blue eyes 〈 蓝 
眼睛 的 哈士奇 ) ”。 虽 然 从 图 片 中 无 法 确认 眼睛 是 否 为 改色 ， 但 是 谷歌 可 以 非常 精确 的 识别 出 狗 的 品 
种 。 


Google 2jpg ~ wolf public domain o] 


{© 


Image size: 
275 x 183 


Find other sizes of this image: 
All sizes - Medium - Large 


Best guess for this image: wolf public domain 


b 在 谷歌 图 片 搜索 中 提供 一 张 狼 的 图 片 ， 得 到 的 结果 为 “wolf publicdomain (旷野 上 的 狼 ) ”。 虽 然 
这 张 图 片 和 (a) 中 哈士奇 的 图 片 非常 接近 ， 但 是 谷歌 可 以 非常 精确 的 识别 动物 的 种 类 。 


图 1-9 ”通过 谷歌 图 像 搜索 识别 动物 


在 物体 识别 问题 中 ， 人 脸 识 别 是 一 类 应 用 非常 广泛 的 技术 。 它 既 可 以 应 用 于 
娱乐 行业 ， 也 可 以 应 用 于 安防 、 风 探 行业 。 在 娱乐 行业 中 ， 基 于 人 脸 识 别 的 
相机 目 动 对 焦 、 上 自动 类 闫 基本 已 经 成 为 每 一 鞭 目 拍 软 件 的 必 备 功能 。 在 安 
防 、 风 探 领域 ， 人 脸 识 别 应 用 更 是 大 大 提高 了 工作 效率 并 下 省 了 人 力 成 本 。 
比如 在 互联 网 金融 行业 ， 为 了 控制 贷款 风险 ， 在 用 户 注册 或 者 贷款 发 放 时 需 
要 验证 本 人 信息 。 个 人 信息 验证 中 一 个 很 重要 的 步骤 是 验证 用 户 提供 的 证 件 
和 用 户 征 同一 个 人 。 通 过 人 脸 识 别 技术 ， 这 个 过 程 可 以 被 更 加 高 效 地 实现 。 


在 深度 学 习 得 到 广泛 应 用 之 前 ， 基 于 传统 的 机 恬 学 习 技 术 并 不 能 很 好 地 满足 
人 脸 识 别 的 精度 要 求 。 人 脸 识 别 的 最 大 挑战 在 于 不 同人 脸 的 差异 较 小 ， 有 时 
同一 个 人 在 不 同 光 照 条 件 、 姿 态 或 者 表情 下 脸 部 的 差异 甚至 会 比 不 同人 脸 之 
间 的 差异 更 大 。 传 统 的 机 恬 学 习 算 法 很 难 抽象 出 足够 有 歼 的 特征 ， 使 得 学 习 
模型 既 可 以 区 分 不 同 的 个 体 ， 又 可 以 尽量 减少 相同 个 体 在 不 同 环境 中 的 变 
化 。 深 度 学 习 技 术 通 过 从 海量 数据 中 自动 习 得 更 加 有 效 的 人 脸 特 征 表达 ， 可 
以 很 好 地 解决 这 个 问题 。 在 人 脸 识 别 数据 集 LFW (Labeled Faces in the 
Wild) 上 ， 基 于 深度 学 习 算 法 的 系统 DeepID2 可 以 达到 99.47% 的 识别 率 。 


在 计算 机 视觉 领域 ， 光 学 字符 识别 (optical character recognition, OCR) 也 是 
使 用 深度 学 习 较 早 的 领域 之 一 。 所 谓 光 学 字符 识别 ， 就 是 使 用 计算 机 程序 将 
计算 机 无 法 理解 的 图 厂 中 的 字符 ， 比 如 数字 、 字 母 、 汉 字 等 符号 ， 转 化 为 计 
算 机 可 以 理解 的 文本 格式 。 早 在 1989 年 Yann LeCun 教 授 发 表 的 论文 
Backpropagation Applied to Handwritten Zip Code Recognition 将 卷 积 神经 网 络 
成 功 应 用 到 了 识别 手写 邮政 编码 的 问题 上 ， 达 到 了 接近 95% 的 正确 率 。 在 
MNIST 手 写 体 数字 识别 数据 集 上 ， 最 新 的 深度 学 习 算法 可 以 达到 99.77% 的 正 
人 nn 。 第 5 章 将 更 加 详细 地 介绍 MNIST 手 写 体 数字 识 
i! 类 A’ 


光学 字符 识别 在 工业 界 的 应 用 也 十 分 广泛 。 在 21 世 纪 初 期 ，Yann LeCun 教 授 
将 基于 卷 积 神经 网 络 的 手写 体 数字 识别 系统 应 用 于 银行 支票 的 数额 识别 ， 这 
个 系统 在 2000 年 左右 已 经 处 理 了 美国 全 部 支票 数量 的 10%~20% 号 。 合 歌 也 将 
数字 识别 技术 用 在 了 谷歌 地 图 的 开发 中 。 合 歌 实现 的 数字 识别 系统 可 以 从 合 
歌 街 景 图 中 识别 任意 长 度 的 数字 ， 并 在 SVHN 数 据 集 号 上 可 以 达到 96% 的 正确 
率 人 年 。 到 2013 年 为 止 ， 这 个 系统 已 经 帮助 谷歌 抽取 了 超过 1 亿 个 门牌 号 码 ， 大 
大 加 速 了 谷歌 地 图 的 制作 过 程 并 节省 了 巨额 的 人 力 成 本 。 而 且 ， 光 学 字符 识 
别 技术 在 谷歌 的 应 用 也 不 仅 限 于 数字 识别 。 谷 歌 图 书 通过 文字 识别 技术 将 扫 
描 的 图 书 数 字 化 ， 从 而 实现 图 书 内 容 的 搜索 功能 。 


1.3.2 ”语音 识别 


深度 学 习 在 语音 识别 领域 取得 的 成 绩 也 是 突破 性 的 。2009 年 深度 学 习 的 概念 
被 引入 语音 识别 领域 ， 并 对 该 领域 产生 了 巨大 的 影响 。 在 短 短 儿 年 时 间 内 ， 

深度 学 习 的 方法 在 TIMIT 数 据 集 号 上 将 基于 传统 的 混合 高 斯 模型 (gaussian 
mixture model, GMM) 的 错误 率 从 21.7% 降 低 到 了 使 用 深度 学 习 模 型 的 
17.9%。 如 此 大 的 提高 幅度 很 快 引起 了 学 术 界 和 工业 界 的 广泛 关注 。 从 2010 年 
到 2014 年 间 ， 在 语 首 识别 领域 的 两 大 学 术 会 议 IEEE-ICASSP 和 Interspeech 上， 

深度 学 习 的 文章 呈现 出 逐年 递增 的 趋势 。 在 工业 界 ， 包 括 谷歌 、 苹 果 、 微 
软 、IBM、 百度 等 在 内 的 国内 外 大 型 IT 公司 提供 的 语音 相关 产品 ， 比 如 谷歌 
的 Google Now、 平 果 的 Siri、 微 软 的 Xbox 和 Skype 等 ， 都 是 基于 深度 学 习 算 


法 。 


在 2009 年 谷歌 局 动 语音 识别 应 用 时 ， 使 用 的 是 在 学 术 界 已 经 研究 了 30 年 的 寓 
合 高 斯 模型 。 到 2012 年 时 ， 深 度 学 习 的 语音 识别 模型 已 经 取代 了 刘 合 高 斯 模 
型 ， 并 成 功 将 谷歌 语 首 识别 的 错误 率 降低 了 20%， 这 个 改进 幅度 超过 了 过 去 
很 多 年 的 总 和 。 微 软 的 研究 人 员 通 过 大 量 实验 得 出 ， 使 用 深度 学 习 的 算法 比 
使 用 混合 高 斯 模型 的 算法 更 能 够 从 海量 数据 中 获 益 。 随 着 数据 量 的 加 大 ， 使 
用 深度 学 习 模 型 无 论 在 正确 率 的 增长 数值 上 还 是 在 增长 比率 上 都 要 优 于 使 用 
混合 高 斯 模型 的 算法 血 。 这 样 的 增长 在 语音 识别 的 历史 上 是 从 未 出 现 过 的 ， 
而 深度 学 习 之 所 以 能 完成 这 样 的 技术 突破 ， 最 主要 的 原因 是 它 可 以 目 动 地 从 
oe eee 而 不 是 如 高 斯 混合 模型 中 需要 人 工 
ERTE ° 
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应 该 是 苹果 公司 推出 的 Siri 系 统 。Siri 系 统 可 以 根据 用 户 的 语 首 输 入 完成 相应 
的 操作 功能 ， 这 大 大 方便 了 用 使 用 。 目 前 ，Siri 已 经 支持 包括 中 文 在 内 的 
20 种 不 同 语言 。 与 Siri 类 似 ， 谷 歌 也 在 安 卓 (Android) 系统 上 推出 了 谷歌 语 
Ete (Google Voice Search) 。 另 外 一 个 成 功 应 用 语音 识别 的 系统 是 微软 的 
同 声 传译 系统 。 在 2012 年 的 微软 亚洲 研究 院 (Microsoft Research Asia, 


Ir 
eas 


MSRA) 二 十 一 世纪 计算 大 会 (21st Century Computing) 上 ， 微 软 高 级 副 总 
Richard Rashid 现 场 演 示 了 微软 开发 的 从 英语 到 汉语 的 同 声 传译 系统 只 。 该 
演讲 受到 了 非常 广泛 的 关注 ， 在 YouTube 网 站 上 已 经 有 超过 一 百 万 次 的 播放 
量 。 同 声 传译 系统 不 仅 要 求 计算 机 能 够 对 输入 的 语音 进行 识别 ， 它 还 要 求 计 
算 机 将 识别 出 来 的 结果 翻译 成 男 外 一 门 语言 ， 并 将 翻译 好 的 结果 通过 语 首 合 
成 的 方式 输出 。 在 没有 深度 学 习 之 前 ， 要 完成 同 声 传译 系统 中 的 任意 一 个 音 
分 都 是 非常 困难 的 。 而 随 着 深度 学 习 的 发 展 ， 语 音 识 别 、 机 器 翻译 以 及 语音 
合成 都 实现 了 巨大 的 技术 突破 。 如 今 ， 微 软 研 发 的 同 声 传译 系统 已 经 被 成 功 
地 应 用 到 了 Skype 网 络 电话 中 。 


13.3 ”自然 语言 处 理 


深度 学 习 在 自然 语言 处 理 领域 的 应 用 也 同样 广泛 。 在 过 去 的 几 年 中 ， 深 度 学 
习 已 经 在 语言 模型 (language modeling) 、 机 器 翻译 、 词 性 标注 (part-of- 
speech tagging) 、 实 体 识别 (named entity recognition, NER) ` RS 

(sentiment analysis) 、 广 告 推荐 以 及 搜索 排序 等 方向 上 取得 了 突出 成 就 。 与 
深度 学 习 在 计算 机 视觉 和 语 首 识别 等 领域 的 突破 类 似 ， 深 度 学 习 在 自然 语言 
处 理 问题 上 的 突破 也 是 能 够 更 加 智能 、 自 动 地 提取 复杂 特征 。 在 自然 语言 处 
理 领 域 ， 使 用 深度 学 习 实 现 智能 特征 提取 的 一 个 非常 重要 的 技术 是 单词 同 量 

(word embedding) 。 单 词 同 量 是 深度 学 习 解 决 很 多 上 述 自然 语言 处 理 问题 
的 基础 号。 


在 自然 语言 处 理 领域 ， 一 个 非常 埋 手 的 问题 在 于 自然 语言 中 有 很 多 词 表达 了 
相近 的 意思 ， 比 如 “ 狗 * 和 “ 犬 ” 就 几乎 表达 了 同样 的 意思 。 然 而 “ 狗 * 和 “ 厂 * 的 编 
码 在 计算 机 中 可 能 差别 很 大 ， 所 以 计算 机 就 无 法 很 好 地 理解 自然 语言 所 表达 
的 语义 。 为 了 解决 这 个 问题 ， 研 究 人 员 人 工 建立 了 大 量 的 语料库 。 通 过 这 些 
语料库 ， 可 以 大 致 刻画 上 自然 语言 中 单词 之 间 的 关系 。 在 建立 好 的 语料库 中 ， 
WordNet ®- ` ConceptNet -FU FrameNet 全 是 其 中 有 影响 力 比 较 大 的 几 个 。 然 而 语 
料 认 的 建立 需要 人 花费 很 多 人 力 物 力 ， 而 且 扩 展 能 力 有 限 。 单 词 向 量 提供 了 一 
种 更 加 灵活 的 方式 来 刻画 单词 的 语义 。 


单词 回 量 会 将 每 一 个 单词 表示 成 一 个 相对 较 低 维度 的 向 量 (比如 100 维 或 200 
维 ) 。 对 于 语义 相近 的 单词 ， 其 对 应 的 单词 向量 在 空间 中 的 距离 也 应 该 接 
近 。 于 是 单词 语义 上 的 相似 度 可 以 通过 空间 中 的 距离 来 描述 。 单 词 癌 量 不 需 
要 通过 人 工 的 方式 设 定 ， 它 可 以 从 互联 网 上 海量 非 标注 文本 中 学 习 得 到 。 使 
用 斯 坦 福 大 学 开源 的 GloVe 鱼 单词 癌 量 可 以 得 到 与 单词 “frog (青蛙 ) ”所 对 应 
的 单词 回 量 最 相似 的 5 个 单词 分 别 是 “frogs (青蛙 复数 ) ” > “toad (HB 
ie) ”\ “jitoria (AY YEE) ” > “leptodactylidae 〈 细 趾 蟾 科 ) ”和 “rana (中 
林 蛙 ) ”。 从 这 个 样 例 可 以 看 出 ， 单 词 同 量 可 以 非常 有 效 地 刻画 单词 的 语义 。 
通过 单词 向 量 还 可 以 进行 单词 之 间 的 运算 。 比 如 用 单词 “king” 所 代表 的 癌 量 减 


去 单词 <man” 所 代表 的 向 量 得 到 的 结果 向 量 和 单词 “queen” 减 去 “woman” 得 到 
的 结果 向 量 相似 。 这 说 明 在 单词 向 量 中 ， 已 经 隐 含 了 表达 性 别 的 概念 。 


通过 对 目 然 语言 中 单词 更 好 地 抽象 与 表达 ， 深 度 学 习 在 目 然 语 言 处 理 的 很 多 
核心 问题 上 都 有 突破 性 的 进展 。 机 絮 翻 译 就 是 其 中 的 一 个 例子 。 图 1-10 展 示 
了 合 歌 翻译 提供 的 传统 算法 和 深度 学 习 算 法 翻译 不 同 语言 对 的 质量 对 比 图 。 
从 图 1-10 可 以 看 出 ， 在 所 有 的 语言 对 上 ， 深 度 学 习 算 法 都 可 以 大 幅度 提高 翻 
译 的 质量 。 根 据 谷歌 的 实验 结果 ， 在 主要 的 语言 对 上 ， 使 用 深度 学 习 可 以 将 
机 句 翻 详 算 法 的 质量 提高 55% 到 85%。 表 1-1 对 比 了 不 同 算法 翻译 同一 句 话 的 
结果 。 从 表 中 可 以 直观 地 看 到 深度 学 习 算法 市 来 翻译 质量 的 提高 。 在 2016 年 9 
月 ， 谷 歌 正 式 上 线 了 基于 深度 学 习 的 中 译 英 软件。 现在 在 谷歌 翻译 产品 中 ， 
已 经 有 8 种 语言 是 由 基于 深度 学 习 的 翻译 算法 完成 的 。 


6 
5 国 | 5 Lo 


英语 -> 西班牙 语 英语 -> 法 语 英语 -> 中 文 西班牙 语 -> 英语 去 语 -> 英语 中 文 -> 英语 


基于 传统 机 器 学 习 算法 表现 。 日 基于 深度 学 习 算法 表现 。 @ 人 工 表现 


图 1-10 不同 翻译 算法 在 不 同 语言 上 的 翻译 质量 各 (其 中 0 表示 最 低 的 质量 ，6 表 示 最 好 的 质量 ) 


表 1-1 不 同 翻译 算法 的 翻译 效果 对 比 表 = 


中 文 原 句 李克强 此 行将 启动 中 加 总 理 年 度 对 话机 
制 ， 与 加 拿 大 总 理 杜 鲁 多 举行 两 国 总 理 首 次 

年 度 对 话 。 
基于 传统 机 器 学 习 算 法 的 Li Keqiang premier added this line to start 
翻译 结果 the annual dialogue mechanism with the 


Canadian Prime Minister Trudeau two prime 
ministers held its first annual session. 


基于 深度 学 习 算 法 的 翻译 Li Keqiang will start the annual dialogue 


结果 mechanism with Prime Minister Trudeau of 
Canada and hold the first annual dialogue 
between the two premiers. 
人 工 翻 译 结果 Li Keqiang will initiate the annual dialogue 
mechanism between premiers of China and 
Canada during this visit, and hold the first annual 
dialogue with Premier Trudeau of Canada. 


情感 分 析 是 自然 语言 处 理 问 题 中 男 外 一 个 非常 经 典 的 应 用 。 和 情感 分 析 最 核心 
的 问题 就 是 从 一 段 自然 语言 中 判断 作者 对 评价 的 主体 是 好 评 还 是 差 评 。 情 感 
分 析 在 工业 界 有 着 非常 广泛 的 应 用 。 随 着 互联 网 的 发 展 ， 用 户 会 在 各 种 不 同 
的 地 方 表 达 对 于 不 同 产品 的 看 法 。 对 于 服务 行业 或 者 制造 业 ， 及 时 掌握 用 户 
对 其 产品 或 者 服务 的 评价 是 提高 用 户 满意 度 非常 有 效 的 途径 。 在 金融 行业 ， 
通过 分 析 用 户 对 不 同 产 品 和 公司 的 态度 可 以 对 投资 选择 提供 帮助 。Derwent 
Capital Markets 于 2012 年 5 月 正式 上 线 ， 它 是 世界 首 家 通过 对 社交 网 络 Twitter 
上 推 文 进行 情感 分 析 来 指导 证 券 交 易 甸 的 对 神 基 金 公司 。 在 同年 8 月 的 一 份 调 
查 中 显示 ， 该 公司 的 平均 收益 率 1.85% 远 远 超 过 了 平均 0.76% 的 收益 率 。 类 似 
的 ， 也 有 人 研究 表明 ， 在 政治 选举 中 ， 通 过 对 Twitter 上 推 文 情感 分 析 得 出 的 结 
果 和 通过 传统 的 调查 、 投 票 等 方法 得 出 的 结果 高 度 一 致 笠 。 在 情感 分 析 问 题 
上 上， 深度 学 习 也 可 以 大 幅 提 高 算法 的 准确 率 。 在 斯 坦 福 大 学 开源 的 Sentiment 
Treebank 数 据 集 上 名， 使 用 深度 学 习 的 算法 可 以 将 语句 层面 的 情感 分 析 正 确 
率 从 80% 提 高 到 85.4%。 在 短语 层面 上 ， 使 用 深度 学 习 的 算法 可 以 将 正确 率 从 
719% 提 高 到 80.7% & ° 


1.3.4 人 机 博弈 


如 果 说 深度 学 习 在 图 像 识 别 领 域 上 的 突破 掀起 了 学 术 界 的 研究 浪潮 ， 那 么 深 
度 学 习 在 人 机 博弈 上 的 突破 使 得 这 个 概念 被 全 社会 所 熟悉 。 在 北京 时 间 2016 
年 3 月 15 日 的 下 午 ， 人 谷歌 开发 的 围棋 人 工 智能 系统 AljphaGo 以 总 比分 4:， 1 战胜 
了 韩国 棋 手 李 世 石 ， 成 为 第 一 个 在 19x19 棋 盘 上 战胜 人 类 围棋 冠军 的 智能 系 
统 。 虽 然 AlphaGo 不 是 第 一 个 战胜 人 类 世界 冠军 的 系统 ， 但 AlphaGo 的 胜利 绝 
对 是 人 工 智 能 历史 上 的 一 座 里 程 碑 。 在 1997 年 IBM 的 智能 国际 象棋 系统 深蓝 
(deep blue) 击败 世界 冠军 卡 斯 由 有 罗 夫 时 ， 所 依赖 的 更 多 是 计算 机 的 计算 资 
源 ， 是 通过 暴力 搜索 (brute-force) 的 方式 尝试 更 多 的 下 棋 方 法 从 而 战胜 人 
类 。 然 而 这 种 方式 在 围棋 上 是 完全 不 适用 的 ， 因 为 搜索 围棋 下 子 方 法 的 复杂 
度 为 10”， 而 国际 象棋 只 有 10“*。 


为 了 战胜 人 类 围棋 世界 冠军 ，AlphaGo 需 要 使 用 更 加 智能 的 方式 。 深 度 学 习 技 
术 为 这 种 方式 提供 了 可 能 。AlphaGo 主 要 是 由 三 个 部 分 组 成 ， 他 们 分 别 是 蒙特 
卡 罗 树 搜索 (Monte Carlo tree search, MCTS) 、 估 值 网 络 (value network) 


和 走 棋 网 络 (policy network) 。 蒙 特 卡 罗 树 搜索 算法 实现 了 对 不 同 落 子 点 的 
搜索 ， 不 过 和 之 前 的 纯 暴 力 搜索 不 同 ，AlphaGo 中 使 用 的 蒙特 卡 罗 树 会 根据 估 
值 网 络 和 走 棋 网 络 对 落 子 后 局 势 的 评判 结 采 来 更 加 智能 地 寻找 最 佳 落 子 点 。 


AlphaGo 背 后 真正 的 大 脑 是 估 值 网 络 和 走 棋 网 络 ， 而 这 两 个 组 件 都 是 通过 深度 
学 习 实现 的 。 走 棋 网 络 解决 的 问题 是 给 定 当前 棋 副 ， 预 测 下 一 步 应 该 在 哪 落 
子 。 通 过 在 大 量 人 类 围棋 高 手 对 奔 的 棋谱 获取 的 训练 数据 ， 走 棋 网 络 能 够 以 
579% 的 准确 率 预 测 人 类 围棋 高 手下 一 步 的 落 子 点 。 然 而 ， 仅 仅 预 测 人 类 高 手 
的 落 季 方法 是 不 够 的 ， 为 了 能 够 战胜 人 类 冠军 ， 走 棋 网 络 还 通过 目 己 跟 目 己 
对 琵 的 方式 来 进一步 提高 落 子 水 平 。AlphaGo 的 另外 一 个 大 脑 是 估 值 网 络 ， 它 
解决 的 问题 是 给 定 当前 的 棋盘 ， 判 断 法 棋 顾 的 概率 。 训 练 估 值 网 络 所 使 用 的 
数据 就 是 落 子 网 络 目 己 和 目 己 对 弈 时 产生 的 。 通 过 蒙特 卡 罗 树 搜索 的 方法 将 
走 棋 网 络 和 佑 值 网 络 这 两 个 大 脑 有 机 地 结合 ，AlphaGo 才 最 终 以 悬殊 的 比分 战 
胜 了 人 类 的 围棋 世界 冠军 。 


AlphaGo 战 胜 人 类 世界 冠军 不 是 人 机 博弈 的 终点 ， 相 反 ， 这 只 是 一 个 开始 。 
AlphaGo 的 开发 团队 DeepMind 最 近 又 宣布 了 他 们 的 下 一 个 目标 星际 争霸 2 
er。 星际 争霸 2 是 暴雪 公司 (Blizzard) 开发 的 一 款 即 时 战略 游戏 。 在 游戏 
中 ， 玩 家 需要 采集 资源 、 建 造 建筑 、 生 产 战 斗 单 位 来 消灭 对 方 玩 家 。 相 比 围 
槛 ， 星 际 争霸 2 对 于 人 工 智 能 系统 设计 的 难度 又 有 指数 级 的 提高 。 首 先 ， 围 棋 
的 落 子 方式 虽然 多 ， 但 也 是 有 限 的 。 而 人 工 吞 能 操作 星际 争霸 2 时 ， 在 任意 一 
个 时 刻 ， 人 工 智 能 系统 需要 同时 (几乎 同时 ) 操作 多 个 不 同 单位 ， 而 且 操 作 
的 方式 是 完全 开放 的 ， 几 乎 没有 限制 ， 所 以 确定 这 些 操作 很 难 通过 搜索 完 
成 。 其 次 ， 星 际 争霸 2 是 一 个 信息 不 对 称 的 系统 。 下 围棋 时 对 奔 双 方 看 到 的 棋 
盘 都 是 一 样 的 ， 而 星际 争霸 2 中 每 个 玩家 只 能 看 到 上 自己 的 地 盘 ， 这 要 求人 工 智 
能 系统 对 “局 势 ” 做 出 判断 。 第 三 ， 星 际 争霸 2 是 即时 对 战 游戏 ， 需 要 计算 机 在 
很 短 的 时 间 内 做 出 判断 ， 这 对 人 工 智能 系统 的 计算 速度 有 很 高 的 要 求 。 如 今 
其 雪 公司 已 经 正式 开始 了 与 DeepMind 团 队 的 合作 ， 并 将 在 不 久之 后 开放 专门 
为 人 工 智 能 研究 设计 的 星际 争霸 2 的 API。 在 星际 争霸 2 上 ， 人 工 吞 能 何 时 能 战 
胜 人 类 ， 我 们 将 拭目以待 。 


1.4 深度 学 习 工 具 介 绍 和 对 比 


在 上 面 的 章 和 中 已 经 介绍 了 深度 学 习 的 概念 以 及 历史 ， 并 给 出 了 不 少 成 功 应 
用 深度 学 习 的 样 例 。 然 而 ， 要 将 深度 学 习 更 快 且 更 便捷 地 应 用 于 新 的 问题 
中 ， 选 择 一 款 深 度 学 习 工 具 是 必 不 可 少 的 步骤 。 这 一 节 将 介绍 深度 学 习 工 具 
TensorFlow 的 主要 功能 和 特点 ， 并 将 对 比 TensorFlow 和 其 他 主流 的 开源 深度 学 
习 工 具 ， 给 出 本 书 选 择 TensorFlow 作 为 主要 介绍 对 象 的 依据 。TensorFlow 是 谷 
歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 。TensorFlow 计 算 框架 可 以 很 好 地 支 
持 深 度 学 习 的 各 种 算法 ， 但 它 的 应 用 也 不 限于 深度 学 习 。 因 为 本 书 的 重点 是 


介绍 使 用 TensorFlow 实 现 深度 学 习 算 法 ， 所 以 本 书 中 将 略 去 TensorFlow 对 于 其 
他 算法 的 文 持 ， 感 兴趣 的 读者 可 以 在 TensorFlow 的 官方 教程 
https://www.tensorflow.org/tutorials 上 找到 更 多 通过 TensorFlow 实 现 非 深度 学 习 


算法 的 样 例 。 


TensorFlow 是 由 Jeff Dean 领 头 的 谷歌 大 脑 团队 基于 谷歌 内 部 第 一 代 深 度 学 习 系 
统 DistBelief 改 进而 来 的 通用 计算 框架 。DistBelief 是 谷歌 2011 年 开发 的 内 部 深 
度 学 习 工 具 ， 这 个 工具 在 谷歌 内 部 已 经 获得 了 巨大 的 成 功 。 基 于 DistBelief 的 
ImageNet 图 像 分 类 系统 Inception 模型 赢得 了 ImageNet2014 年 的 比赛 
(ILSVRC) 中。 通过 DistBelief， 合 歌 在 海量 的 非 标 注 YouTube 视 屏 中 习 得 
了 “ 猫 * 的 概念 ， 并 在 谷歌 图 片 中 开创 了 图 片 搜 索 的 功能 。 使 用 DistBelief 训 | 练 
的 语音 识别 模型 成 功 将 语音 识别 的 错误 率 降 低 了 25%。 在 一 次 BBC 采 访 中 ， 
当时 的 谷歌 首席 执行 官 Eric Schmidt 表 示 这 个 提高 比率 相当 于 之 前 十 年 的 总 和 


(32) o 


虽然 DistBelief 已 经 被 谷歌 内 部 很 多 产品 所 使 用 ， 但 是 DistBelief 过 于 依赖 谷歌 
内 部 的 系统 架构 ， 很 难 对 外 开源 。 为 了 将 这 样 一 个 在 谷歌 内 部 已 经 获得 了 巨 
大 成 功 的 系统 开源 ， 谷 歌 大 脑 团 队 对 DistBelief 进 行 了 改进 ， 并 于 2015 年 11 月 
正式 公布 了 基于 Apache 2.0 开 源 协 议 的 计算 框架 TensorFlow。 相 比 DistBelief， 
TensorFlow 的 计算 模型 更 加 通用 、 计 算 速 度 更 快 、 文 持 的 计算 平台 更 多 、 文 
持 的 深度 学 习 算 法 更 广 而 且 系统 的 稳定 性 也 更 高 。 在 本 书后 面 的 章节 中 ， 我 
们 将 重点 介绍 TensorFlow 的 使 用 ， 关 于 TensorFlow 平 台 本 喘 的 技术 细节 可 以 参 
考 谷 歌 的 论文 fensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems ®- ° 


如 今 在 谷歌 内 部 ，TensorFlow 已 经 得 到 了 广泛 的 应 用 。 在 2015 年 10 月 26 日 ， 
合 歌 正式 宣布 通过 TensorFlow 实 现 的 排序 系统 RankBrain 上线 。 相 比 一 些 传统 
的 排序 算法 ， 使 用 RankBrain 的 排序 结果 更 能 满足 用 户 需 求 。 在 2015 年 绢 博 

(Bloomberg) 的 报道 中 峙 ， 人 谷歌 透露 了 在 谷歌 上 于 种 排序 算法 中 ， 
RankBrain 是 第 三 重要 的 排序 算法 。 基 于 TensorFlow 的 系统 RankBrain 能 在 谷歌 
的 核心 网 页 搜索 业务 中 占据 如 此 重要 的 地 位 ， 可 见 TensorFlow 在 谷歌 内 部 的 
重要 性 。 包 括 网 页 搜索 在 内 ，TensorFlow 已 经 被 成 功 应 用 到 了 谷歌 的 各 款 产 
品 之 中 。 如 今 ， 在 谷歌 的 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、 
YouTube 等 众多 产品 之 中 都 可 以 看 到 基于 TensorFlow 的 系统 各。 在 经 过 半年 的 
演 试 和 思考 之 后 ， 合 歌 的 DeepMind 团 队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 
用 TensorFlow 号 作为 实现 深度 学 习 算 法 的 工具 。 


除了 在 谷歌 内 部 大 规模 使 用 之 外 ，TensorFlow 也 受到 了 工业 界 和 学 术 界 的 广 
IZ KIE ° Google IO 2016 的 大 会 上 ，Jeff Dean 提 到 已 经 有 1500 多 个 GitHub 的 
代码 库 中 提 到 了 TensorFlow， 而 只 有 5 个 是 谷歌 官方 提供 的 。 如 今 ， 包 括 优 步 

(Uber) 、Snapchat、Twitter、 京 东 、 小 米 等 国内 外 科技 公司 也 纷纷 加 入 了 使 


用 TensorFlow 的 行列 。 正 如 谷歌 在 TensorFlow 开 源 原 因 中 所 提 到 的 一 样 ， 
TensorFlow 正 在 建立 一 个 标准 ， 使 得 学 术 界 可 以 更 方便 地 交流 学 术 研 究 成 
果 ， 工 业界 可 以 更 快 地 将 机 器 学 习 应 用 于 生产 之 中 。 


除了 TensorFlow， 目 前 还 有 一 些 主流 的 次 度 学 习 开 源 工 具 。 表 1-2 中 总 结 了 这 

些 工具 的 主要 和 情况。 每 球 工 具 都 有 各 自 的 特点 ， 由 于 篇 幅 所 限 ， 在 本 书 中 不 

再 一 一 介绍 每 一 个 工具 目前 的 优 缺 点 ， 感 兴趣 的 读者 可 以 参考 脚注 中 每 种 工 
具 的 官方 网 站 给 人 台 出 的 信息 。 


表 1-2 主流 的 深度 学 习 开 源 工具 总 结 表 咏 


ain 


工具 名 称 主要 维护 人 员 支持 语言 支持 系统 
(或 团体 ) 
Caffe_ sa 加 州 大 学 伯克利 C++ ` Python `œ Linux ` Mac OS 
分 校 视觉 与 学 习 中 MATLAB X ` Windows 
心 
Deeplearning4j_ so Skymind Java `œ Scala ` Linux š 
Clojure Windows ` Mac OS 
X ` Android 
Microsoft 微软 研究 院 Python ` C++ ` Linux ` 
Cognitive Toolkit BrainScript Windows 
(CNTK) _ uo 
MXNet_ «wn 分 布 式 机 器 学 习 C++ ` Python `œ Linux ` Mac OS 


社区 (DMLC) Julia ` Matlab 、X ` Windows ` 
Go ` R ` Scala Android ` iOS 


PaddlePaddle_ «un HÆ C++ ` Python Linux ` Mac OS 
X 
TensorFlow 谷歌 C++ ` Python Linux ` Mac OS 
X ` Android ` iOS 
Theano_ e 蒙特 利 尔 大 学 Python Linux ` Mac OS 
X ` Windows 
Torch_ w Ronan Collobert、 Lua ` LuaJIT `C Linux ` Mac OS 
Soumith Chintala X `œ Windows ` 
(Fackbook) Android ` iOS 


Clement Farabet 
(Twitter) 


Koray 
Kavukcuoglu 
(Google) 


作者 认为 ， 不 同 的 深度 学 习 工 具 都 在 发 展 之 中 ， 比 较 当 前 的 性 能 、 功 能 固然 
是 选择 工具 的 一 种 方法 ， 但 更 加 重要 的 是 比较 不 同 工 具 的 发 展 趋势 。 深 度 学 
习 本 身 就 是 一 个 处 于 蓬勃 发 展 阶段 的 领域 ， 所 以 对 深度 学 习 工具 的 选择 ， 作 
者 认为 应 该 更 加 看 重工 具 在 开源 社区 的 活跃 程度 。 只 有 社区 活跃 度 更 高 的 工 
a 才 有 可 能 跟 上 深度 学 习 本 号 的 发 展 速度 ， 从 而 在 未 来 不 会 面临 被 淘汰 的 
XE © 


图 1-11 对 比 了 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 的 一 些 指标 。 图 1-11 

(a) 中 比较 了 不 同 工 具 在 GitHub 上 受 关注 的 程度 。 从 图 中 可 以 看 出 ， 无 论 是 
在 获得 的 星 数 (star) 还 是 在 仓库 被 复制 的 次 数 上 ，TensorFlow 都 要 远 远 超 过 
其 他 的 深度 学 习 工 具 。 如 果 说 图 1-11 (a) 只 能 代表 不 同 深度 学 习 工 具 在 社区 
受 关注 程度 ， 那 么 图 1-11 (b) 对 比 了 不 同 深度 学 习 工 具 社 区 参与 度 。 图 1-11 

b 中 展示 了 不 同 深度 学 习 工 具 在 GitHub 上 最 近 一 个 月 的 活跃 讨论 贴 和 代码 
提交 请 求 数量 。 活 跃 讨论 帖 越 多 ， 可 以 说 明 真 正 使 用 这 个 工具 的 人 也 束 越 
多 ; 提交 代码 请 求 数量 越 多 ， 可 以 说 明 参 与 到 开发 这 个 工具 的 人 也 就 越 多 。 
从 图 1-11 (b) 中 可 以 看 出 ， 无 论 从 哪个 指标 ，TensorFlow 都 要 远 远 超过 其 他 
深度 学 习 工 具 。 大 量 的 活跃 开发 者 再 加 上 合 歌 的 全 力 支 持 ， 作 者 相信 
eas 更 大 的 潜力 ， 这 也 是 本 书 将 TensorFlow 作 为 介绍 对 象 的 


(a) 不 同 深度 学 习 工具 社区 流行 度 指标 比较 a 
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图 1-11 不 同 深 度 学 习 工 具 在 GitHub 上 活跃 程度 对 比 图 
小 结 


本 章 对 深度 学 习 做 了 全 方位 的 介绍 。 首 移 1.1 和 介绍 了 人 工 智 能 、 机 器 学 习 以 
及 深度 学 习 的 概念 ， 并 解释 了 这 些 概念 之 间 的 差异 。 人 工 智能 是 一 类 非常 广 
泛 的 问题 ， 它 旨 在 通过 计算 机 实现 类 似 人 类 的 智能 。 机 恬 学 习 是 解决 人 工 智 
能 问题 的 一 个 重要 方法 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 支 ， 它 在 很 多 领域 
突破 了 传统 机 器 学 习 的 瓶 贷 ， 将 人 工 吞 能 推 回 了 一 个 新 的 高 潮 。 然 而 ， 这 样 
一 个 突破 性 的 技术 并 不 是 最 近 几 年 凭空 创造 的 ， 它 所 基于 的 人 工 神经 网 络 

(artificial neural network, ANN) 技术 已 经 发 展 了 大 半 个 世纪 。 不 过 神经 网 
络 的 发 展 不 是 一 帆 风 顺 ，1.2 节 完整 的 介绍 了 它 发 展 的 三 个 起 落 。 


受到 人 类 大 脑 结构 的 局 发 ， 人 工 神经 网 络 的 计算 模型 于 1943 年 首次 提出 。 之 
后 感知 机 的 发 明 使 得 人 工 神 经 网 络 成 为 真正 可 以 从 数据 中 “学 习 ” 的 模型 。 但 
由 于 感知 机 的 网 络 结构 过 于 简单， 导致 无 法 解决 线性 不 可 分 问题 。 再 加 上 人 
工 神 经 网 络 所 需要 的 计算 量 太 大 ， 当 时 的 计算 机 无 法 满足 计算 需求 ， 使 得 人 
工 神经 网 络 的 研究 进入 了 第 一 个 寒冬 。 到 20 世 纪 80 年 代 ， 深 层 神 经 网 络 和 反 
向 传播 算法 的 提出 很 好 地 解决 了 这 些 问题 ， 让 人 工 神 经 网 络 进入 第 二 个 快速 
发 展期 。 不 过 ， 在 这 一 时 期 中 ， 以 支持 癌 量 机 为 主 的 传统 机 器 学 习 算 法 也 在 
飞速 发 展 。 在 90 年 代 中 期 ， 在 很 多 机 器 学 习 任务 上 ， 传 统 机 絮 学 习 算 法 超越 
了 人 工 神经 网 络 的 精确 度 ， 使 得 人 工 神 经 网 络 领域 再 次 进入 寒冬 。 直 到 2012 
年 前 后 ， 随 着 云 计 算 和 海量 数据 的 普及 ， 人 工 神 经 网 络 以 “深度 学 习 ” 的 名 字 
再 次 进入 大 家 的 视野 。 在 短 短 几 年 时 间 内 ， 深 度 学 习 在 很 多 人 研究 领域 突破 了 
传统 机 器 学 习 的 瓶 贷 ， 推 动 了 人 工 智能 的 发 展 。 


人 类 大 脑 的 结构 分 为 了 很 多 神经 中 枢 ， 不 同 的 神经 中 枢 处 理 不 同类 型 的 输 
入 。 在 很 长 一 段 时 间 ， 神 经 学 家 认为 人 类 大 脑 不 同 的 神经 中 枢 有 不 同 的 处 理 
逻辑 。 类 似 的 ， 机 器 学 习 领 域 也 一 直 分 为 计算 机 视觉 、 语 首 、 目 然 语言 处 理 


等 多 个 领域 ， 而 且 不 同 领域 使 用 的 算法 也 有 很 大 区 别 。 然 而 ， 神 经 学 家 后 来 
发 现 人 类 大 脑 不 同 神经 中 桃 的 学 习 算 法 是 一 致 的 。 这 使 得 人 们 看 到 了 深度 学 
习 可 以 应 用 在 多 个 领域 的 理论 可 能 性 。 在 实践 中 ， 深 度 学 习 也 确实 突破 了 很 
多 领域 的 技术 瓶 贷 。1.3 节 介绍 了 深度 学 习 在 计算 机 视觉 、 语 首 、 目 然 语 言 处 
理 、 人 机 博弈 等 多 个 领域 上 的 突破 性 进展 。 在 ImageNet 图 像 分 类 的 问题 上 ， 
深度 学 习 成 功 将 错误 率 从 26% 降 低 到 了 3.5%。 在 语 首 识别 问题 上 ， 合 歌 通 过 
深度 学 习 将 错误 率 降低 了 25%， 这 一 改进 幅度 是 过 去 十 年 的 总 和 。 在 目 然 语 
言 处 理 上 ， 基 于 深度 学 习 的 机 器 翻译 、 搜 索 排序 、 情 感 分 析 、 目 然 语言 建 模 
等 应 用 都 已 经 在 国内 外 各 大 科技 公司 内 广泛 使 用 。 由 谷歌 DeepMind 团 队 开 发 
的 围棋 人 机 博 诗 系统 AlphaGo 更 是 激 起 了 全 社会 对 深度 学 习 俩 完 的 热情 。 如 
今 ， 深 度 学 习 已 经 渗透 到 了 工业 界 和 学 术 界 的 每 一 个 领域 。 


要 利用 好 深度 学 习 所 带 来 的 福利 ， 选 择 一 款 好 的 深度 学 习 工 具 必 不 可 少 。1.4 
节 介绍 了 谷歌 开源 的 深度 学 习 工 具 TensorFlow 的 特性 和 在 谷歌 内 部 的 应 用 ， 
并 将 其 和 目前 其 他 主流 的 开源 深度 学 习 工 具 做 了 比较 。 在 谷歌 内 部 ， 
TensorFlow 已 经 被 成 功 应 用 到 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 翻 
译 、YouTube 等 众多 产品 之 中 。 基 于 TensorFlow 开 发 的 RankBrain 排 序 算法 在 
谷歌 上 于 排序 算法 中 排 在 第 三 重要 的 位 置 ， 由 此 可 见 TensorFlow 在 谷歌 的 重 
要 地 位 。 而 且 ， 对 于 TensorFlow 的 文 持 不 仅仅 来 目 谷 歌 。1.4 节 对比 了 不 同 开 
源深 度 学 习 工 具 的 社区 活跃 度 。 在 各 种 指标 上 ，TensorFlow 的 活跃 程度 都 要 
远 远 超过 其 他 工具 。 所 以 ， 本 书 选 择 TensorFlow 作 为 介绍 的 工具 。 在 后 面 的 
章节 中 将 具体 介绍 如 何 通 过 TensorFlow 实 现 各 种 不 同 的 深度 学 习 算法 ， 以 及 
使 用 TensorFlow 时 的 一 些 最 佳 实践 。 


(1)_ 本 节 部 分 内 容 参 见 : Goodfellow I, Bengio Y, Courville A. Deep learning [M]. The MIT Press,2016. 


(2) 知识 图 库 Ontology 有 时 又 被 称 为 Knowledge Graph ° Knowledge Graph 更 多 的 是 指 代 谷 歌 内 部 建立 的 
知识 图 库 ， 而 Ontology 更 多 指 代 的 是 知识 图 库 这 个 学 术 领 域 。 


(3)_ 更 多 关于 WordNet 的 信息 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/ ° 
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(7)_ 在 ImageNet 图 像 分 类 问题 上 ， 大 部 分 研究 都 使 用 Top5 错 误 率 来 评价 模型 优 劣 。 第 6 章 将 更 加 详细 地 
介绍 ImageNet 数 据 集 。 


(8)_ http://image-net.org/challenges/LSVRC/2013/index#task 中 有 更 多 关于 ILSVRC2013 物 体 识别 数据 集 的 
介绍 o 
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(9)_ 数字 出 自 ILSVRC 官 网 : http://image-net.org/challenges/LSVRC/2016/results ° 


(10)_ 图 片 来 自 于 ILSVRC 官 网 : http://image-net.org/challenges/LSVRC/2013/。 


(11)_ 更 多 关于 人 脸 识 别 数据 集 LFW 的 信息 可 以 参考 其 官方 网 站 : http:/vis-www.cs.umass.edu/lfw/ ° 


(12) 数字 出 自 Yann LeCun 教 授 在 CERN 研 讨 会 上 的 报告 Deep Learning and the Future of AI ° R tt *} 
可 以 参考 : https://indico.cern.ch/event/510372/。 


u 


(13)_ SVHN 数 据 集 是 斯 坦 福 大 学 开源 的 数据 集 ， 更 多 关于 该 数据 的 信息 可 以 参考 其 官方 网 站 : 
http://ufldl.stanford.edu/housenumbers/ ° 


(14)_ 数字 参见 : Goodfellow I J, Bulatov Y, Ibarz J, et al. Multi-digit Number Recognition from Street View 
Imagery using Deep Convolutional Neural Networks [J]. Computer Science, 2013. 


(15), 更 多 关于 TIMIT 数 据 集 的 信息 可 以 参考 其 官方 网 站 : https://catalog.ldc.upenn.edu/ldc93s1 ° 


(16)_ 参见 : Li D. Achievements and Challenges of Deep Learning [J]. Apsipa Transactions on Signal & 


Information Processing, 2015. 


(17)_ 演讲 视频 地 址 为 http:Wvyouku.com/v_show/id_XNDcyOTUwNjMy.html。 


(18)_ 参见 : Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and 


their Compositionality [J]. Advances in Neural Information Processing Systems, 2013, 26. 


(19)_ 参见 : Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch [J]. 
Journal of Machine Learning Research, 2011. 
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(21)_ 更 多 关于 ConceptNet 的 资料 可 以 参考 其 官方 网 站 : http://conceptnet5.media.mit.edu/ ° 
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(22) 更 多 关于 FrameNet 的 资料 可 以 参考 其 官方 网 站 : https://framenet.icsi.berkeley.edu/fndrupal/ ° 


(23), 具体 关于 GloVe 的 介绍 可 以 参考 其 官方 网 站 : http:/nlp.stanford.edu/projects/glove/ ° 


(24) 数字 出 自 谷 歌 技术 博客 : https://research.googleblog.com/2016/09/a-neural-network-for- 
machine.html ° 


(25)_ 此 表 中 数据 出 自 谷 歌 技术 博客 :  https://research.googleblog.com/2016/09/a-neural-network-for- 
machine.html ° 


(26)_ 参见: Bollen J, Mao H, Zeng X. Twitter mood predicts the stock market [J]. Journal of Computational 
Science , 2010. 


(27)_ 参见 : O'Connor B, Balasubramanyan R, Routledge B R, et al. From Tweets to Polls: Linking Text 
Sentiment to Public Opinion Time Series [C]// International Conference on Weblogs and Social Media, ICWSM 
2010, Washington, Dc, Usa, May. DBLP, 2010. 


(28)_ http://nlp.stanford.edu/sentiment/ 中 给 出 了 更 多 关于 Sentiment Treebank 的 信息 。 


(29)_ Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a 
sentiment treebank[J]. 2013. 


a 


(30) 具体 报道 参见 : https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai-research- 


environment/ ° 


(31)_ 在 第 6 章 中 将 具体 介绍 ILSVRC 比 赛 以 及 Inception 模 型 。 


(32)_ 此 数字 来 源 于 : http://www.csmonitor.com/Technology/2015/0914/Google-chairman-We-re-making- 


real-progress- on-artificial-intelligence ° 


(33)_ 参见 : Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on 
Heterogeneous Distributed Systems [J]. 2016. 


(34). 具体 报道 参见 : https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web- 


search-over- to-ai-machines ° 


(35)_ TensorFlow 官 方 网 站 : https:/www.tensorflow.org/versions/r0.9/resources/uses.html 上 列 出 了 一 些 使 用 
TensorFlow 的 样 例 项 目 。 


见 谷 歌 官方 技术 博客 : https://research.googleblog.com/2016/04/deepmind-moves-to- 


Ww 


(36)_ 具体 报道 
tensorflow.html ° 


(37)_ 表 中 工具 根据 字母 序 排列 。 


(38)_ Caffe 官 方 网 站 : http://caffe.berkeleyvision.org/ ° 


(39)_ Deeplearning4j 官方 网 站 : https://deeplearning4j.org/ ° 


(40)_ Microsoft Cognitive Toolkit 官 方 网 站 : https://www.microsoft.com/en-us/research/product/cognitive- 
toolkit/ ° 


(41). MXNet 官 方 网 站 : http://mxnet.io/ ° 


(42) PaddlePaddle 官 方 网 站 : http://www.paddlepaddle.org/ ° 


(43)_ Theano 官 方 网 站 : http://deeplearning.net/software/theano/ ° 


(44)_Torch 官 方 网 站 : http://torch.ch/ ° 


(45)_ 图 中 数据 获取 的 时 间 为 2016 年 11 月 17 日 。 


(46)_ 图 中 数据 来 自 于 Github 上 2016 年 10 月 15 日 至 2016 年 11 月 15 日 的 统计 数据 。 


第 2 章 TensorFlow 环 境 搭建 


本 章 将 介绍 如 何 安装 TensorFlow 环 境 以 及 在 安装 好 的 环境 中 运行 简单 的 
TensorFlow 样 例 程 序 。 在 介绍 如 何 安 装 TensorFlow 之 前 ，2.1 广 将 首先 介绍 
TensorFlow 依 赖 的 一 些 主要 工具 包 。 然 后 2.2 闻 将 介绍 TensorFlow 的 不 同安 装 
方式 以 及 这 些 安 装 方式 所 适用 的 不 同 的 场景 。 最 后 2.3 广 将 给 出 一 个 用 
TensorFlow 完 成 癌 量 加 法 的 样 例 。 通 过 这 个 样 例 程 序 ， 读 者 可 以 测试 安装 好 
的 TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 认识 。 


2.1 ”TensorFlow 的 主要 依赖 包 


本 万 将 介绍 TensorFlow 依 赖 的 两 个 最 主要 的 工具 包 Protocol Buffer 和 
Bazel。 昌 然 TensorFlow 依 赖 的 工具 包 不 仅 限 于 此 厄 中 列 出 来 的 两 个 ， 但 
Protocol Buffer 和 Bazel 是 作者 认为 相对 比较 重要 的 ， 在 使 用 TensorFlow 的 过 程 
中 很 有 可 能 会 接触 到 。 因 为 本 书 的 重点 是 介绍 TensorFlow， 所 以 在 本 节 对 列 
出 来 的 工具 包 只 进行 大 致 的 介绍 ， 主 要 目的 是 为 了 不 妨碍 读者 对 TensorFlow 
的 使 用 和 理解 。 这 些 工具 的 详细 介绍 可 以 参考 脚注 。 在 以 下 的 每 个 小 广 将 介 
绍 一 个 工具 包 的 主要 功能 并 给 出 简单 的 样 例 。 


2.1.1 Protocol Buffer 


Protocot Buffer 是 谷歌 开发 的 处 理 结构 化 数据 的 工具 。 何 为 处 理 结构 化 数 
据 ? 这 里 我 们 给 出 一 个 例子 。 假 设 要 记录 一 些 用 户 信 息 ， 每 个 用 户 的 信息 包 
sie 户 的 名 字 、ID 和 E-mail 地 址 。 那 么 一 个 用 户 的 信息 可 以 表示 为 以 下 的 形 
了 


name: 张 三 
id: 12345 


email: zhangsan@abc.com 


上 面 的 用 户 信息 就 是 一 个 结构 化 的 数据 。 注 意 本 节 中 介绍 的 结构 化 数据 和 大 
数据 中 的 结构 化 数据 的 概念 不 同 ， 本 市 中 介绍 的 结构 化 数据 指 的 是 拥有 多 种 
属性 的 数据 。 比 如 上 述 的 用 户 信 息 中 包含 名 字 、ID 和 E-mail 地 址 3 种 不 同属 
性 ， 那 么 它 驶 是 一 个 结构 化 数据 。 当 要 将 这 些 结构 化 的 用 户 信 息 持 久 化 或 者 
进行 网 络 传输 时 ， 束 需要 先 将 它们 序列 化 。 所 请 序列 化 ， 是 将 结构 化 的 数据 
变 成 数据 流 的 格式 ， 简 单 地 说 加 是 变 为 一 个 字符 串 。 如 何 将 结构 化 的 数据 序 
列 化 ， 并 从 序列 化 之 后 的 数据 流 中 还 原 出 原来 的 结构 化 数据 ， 统 称 为 处 理 结 
构 化 数据 ， 这 就 是 Protocol Buffer 解 决 的 主要 问题 。 


除 Protocol Buffer 之 外 ， XML 和 JSON 是 两 种 比较 和 常用 的 结构 化 数据 处 理工 
具 。 比 如 将 上 面 的 用 户 信 息 使 用 XML 格式 表达 ， 那 么 数据 的 格式 为 : 


<USer> 
<name> 张 三 </name> 
<id>12345</id> 
<email>zhangsan@abc.com</email> 


</user > 


同样 的 数据 ， 使 用 JSON 的 格式 为 : 


"email": “zhangsan@abc.com”, 


Protocol Buffer 格 式 的 数据 和 XML 或 者 JSON 格 式 的 数据 有 比较 大 的 区 别 。 首 
先 ，Protocol Buffer 序 列 化 之 后 得 到 的 数据 不 是 可 读 的 字符 串 ， 而 是 二 进 制 
流 。 其 次 ，XML 或 JSON 格 式 的 数据 信息 都 包含 在 了 序列 化 之 后 的 数据 中 ， 不 
需要 任何 其 他 信息 就 能 还 原 序列 化 之 后 的 数据 。 但 使 用 Protocol Buffer 时 需要 
先 定 义 数据 的 格式 (schema) &。 还 原 一 个 序列 化 之 后 的 数据 将 需要 使 用 到 
这 个 定义 好 的 数据 格式 。 以 下 代码 给 出 了 上 述 用 户 信 息 样 例 的 数据 格式 定义 
文件 。 因 为 这 样 的 差别 ，Protocol Buffer 序 列 化 出 来 的 数据 要 比 XML 格 式 的 数 
据 小 3 到 10 倍 ， 解 析 时 间 要 快 20 到 100 倍 。 


message user{ 
optional string name = 1; 
required int32 id = 2; 


repeated string email = 3; 


Protocol Buffer 定 义 数据 格式 的 文件 一 般 保 存在 .proto 文 件 中 。 每 一 个 message 
代表 了 一 类 结构 化 的 数据 ， 比 如 这 里 的 用 户 信息 。message 里 面 定 义 了 每 一 个 
属性 的 类 型 和 名 字 。Protocol Buffer 里 属性 的 类 型 可 以 是 像 布尔 型 、 整 数 型 、 
实数 型 、 字 符 型 这 样 的 基本 类 型 ， 也 可 以 是 另外 一 个 message。 这样 大 大 增加 
T Protocol Buffer 的 灵活 性 。 在 message 中 ，Protocol Buffer 也 定义 了 一 个 属性 
是 必须 的 (required) 还 是 可 选 的 (optional) ， 或 者 是 可 重复 的 

(repeated) 。 如 果 一 个 属性 是 必须 的 (required) ， 那 么 所 有 这 个 message 的 
实例 都 需要 有 这 个 属性 &， 如 果 一 个 属性 是 可 选 的 (optional) ， 那 么 这 个 属 
性 的 取 值 可 以 为 空 ， 如 果 一 个 属性 是 可 重复 的 (repeated) ， 那 么 这 个 属性 的 
取 值 可 以 是 一 个 列表 。 还 是 以 用 户 信 息 为 例 ， 所 有 用 户 都 需要 有 ID， 所 以 ID 
这 个 属性 是 必须 的 ; 不 是 所 有 用 户 都 填写 了 姓名 ， 所 以 姓名 这 个 属性 是 可 选 
的 ; 一 个 用 户 可 能 有 多 个 E-mail 地 址 ， 所 以 E-mail 地 址 是 可 重复 的 。 


Protocol Buffur 是 TensorFlow 系 统 中 使 用 到 的 重要 工具 ，TensorFlow 中 的 数据 
基本 都 是 通过 Protocol Buffer 来 组 织 的 。 在 后 面 的 章节 中 将 看 到 Protocol Buffer 
是 如 何 被 使 用 的 。 分 布 式 TensorFlow 的 通信 协议 gRPC 也 是 以 Protocol Buffer 作 
为 基础 的 。 


2.1.2 Bazel 


Bazel Æ MARKEE DAELE, AeA aa Ao AY HA A EE 
它 来 编译 的 。 相 比 传统 的 Makefile、Ant 或 者 Maven ，Bazel 在 速度 、 可 伸缩 
性 、 灵 活性 以 及 对 不 同 程序 语言 和 平台 的 支持 上 都 要 更 加 出 色 。TensorFlow 
本 吴 以 及 谷歌 给 出 的 很 多 官方 样 例 都 是 通过 Bazel 来 编译 的 。 这 一 小 和 将 简单 


介绍 Bazel 是 怎样 工作 的 。 


项 目 空 间 (workspace) 是 Bazel 的 一 个 基本 概念 全 。 一 个 项 目 空间 可 以 人 简单 地 
理解 为 一 个 文件 来， 在 这 个 文件 夹 中 包含 了 编译 一 个 软件 所 需要 的 源 代码 以 
及 输出 编译 结果 的 软 连 接 (symbolic link) 地 址 。 一 个 项 目 空 间 内 可 以 只 包含 
一 个 应 用 (比如 TensorFlow) ， 这 种 情况 在 2.2.3 小 方 中 将 会 用 于 从 源码 安装 
TensorFlow。 一 个 项 目 空 间 也 可 以 包含 多 个 应 用 。 一 个 项 目 空间 所 对 应 的 文 
件 夹 是 这 个 项 目的 根 目 录 ， 在 这 个 根 目录 中 需要 有 一 个 WORKSPACE 文 件 ， 

a 。 衬 文件 也 是 一 个 合法 的 WORKSPACE 


在 一 个 项 目 衬 间 内 ，Bazel 通 过 BUILD 文件 来 找到 需要 编译 的 目标 皇 。 BUILD 
文件 采用 一 种 类 似 于 Python 的 语法 来 指定 每 一 个 编译 目标 的 输入 、 输 出 以 及 
编译 方式 。 与 Makefile 这 种 比较 开放 式 的 编译 工具 不 同 ，Bazel 的 编译 方式 是 
事先 定义 好 的 。 因 为 TensorFlow 主 要 使 用 Python 语言 ， 所 以 这 里 都 以 编译 
Python 程序 为 例 。Bazel 对 Python 文 持 的 编译 方式 只 有 三 种 : py_binary、 
py_library 和 py_test 和 。 其 中 py_binary 将 Python 程序 编译 为 可 执行 文件 ，py_test 
编译 Python 测试 程序 ，py_library 将 Python 程序 编译 成 库 函 数 供 其 他 py_binary 
或 py_test 调 用 。 下 面 给 出 了 一 个 简单 的 样 例 来 说 明 Bazel 是 如 何 工作 的 。 如 下 
所 示 ， 在 样 例 项 目 空 间 中 有 4 个 文件 : WORKSPACE 、BUILD 、hello_main.py 
和 hello_jlib.py。 


-rw-rw-r-- root root 208 BUILD 


-rw-rw-r-- root root 48 hello_lib.py 


-rw-rw-r-- root root 47 hello_main.py 


-rw-rw-r-- root root 0 WORKSPACE 


WORKSPACE 给 出 此 项 目的 外 部 依赖 关系 。 为 了 简单 起 见 ， 这 里 使 用 一 个 衬 
文件 ， 标 明 这 个 项 目 没 有 对 外 部 的 依赖 。hello_lib.py 完 成 打印 “Hello World” 的 
简单 功能 ， 它 的 代码 如 下 : 


def print_hello_world(): 


print("Hello World") 


hello_main.py 通 过 调用 hello_lib.py 中 定义 的 函数 来 完成 输出 ， 它 的 代码 如 下 : 


import hello_lib 


hello_lib.print_hello_world() 


在 BUILD 文件 中 定义 了 两 个 编译 目标 : 


py_library( 
name = "hello_lib", 
srcs = [ 


"hello_lib.py", 


) 


py_binary( 


name = "hello_main", 


srcs = [ 


"hello_main.py", 


], 

deps = [ 
"shello_lib", 

], 


从 这 个 样 例 中 可 以 看 出 ，BUILD 文 件 是 由 一 系列 编译 目标 组 成 的 。 定 义 编 译 
目标 的 先后 顺序 不 会 影响 编译 的 结果 。 在 每 一 个 编译 目标 的 第 一 行 要 指定 编 
译 方 式 ， HVE BI BE Dy library 或 者 py_binary。 在 每 一 个 编译 目标 中 的 
主体 需要 给 出 编译 的 具体 信息 。 编 译 的 具体 信息 是 通过 定义 name，srcs， 
等 属性 完成 的 。name 是 一 个 编译 目标 的 名 字 ， 这 个 名 字 将 被 用 来 指 代 这 一 
编译 目标 。srcs 给 出 了 编译 所 需要 的 源 代码 ， 这 一 项 可 以 是 一 个 列表 。 aepsi 
出 了 编译 所 需要 的 依赖 和 关系， 比如 样 例 中 hello_main.py 需 要 调用 hello_lib.py 中 
的 函数 ， 所 以 hello_main 的 编译 目标 中 将 hello_lib 作 为 依赖 关系 。 在 这 个 项 目 
空间 中 运行 编译 操作 bazel build :hello_main 将 得 到 类 似 以 下 的 结果 : 


ot root 74 bazel-bazel -> ~/.cache/bazel/_bazel_root/0a1e386d667563a2d9ed561a4f7d1a3e/bazel/ 
ot root 104 bazel-bin -> ~/.cache/bazel/_bazel_root/0a1e386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/bin/ 
Irwxrwxrwx 1 root root 109 bazel-genfiles -> ~/.cache/bazel/_bazel_root/0a1e386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/genfiles/ 
ot root 84 bazel-out -> ~/.cache/bazel/_bazel_root/0a1e386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/ 

ot root 109 bazel-testlogs -> ~/.cache/bazel/_bazel_root/0a1e386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/testlogs/ 
-rw-rw-r— 1 root root 208 BUILD 
-rw-rw-r— 1 root root 48 hello_lib.py 
-rw-rw-r— 1 root root 47 hello_main.py 
-tw-rw-r— 1 root root 0 WORKSPACE 


从 上 面 的 结果 可 以 看 到 ， 在 原来 4 个 文件 的 基础 上 ，Bazel 生 成 了 其 他 一 些 文 
件 来。 这 些 新 生成 的 文件 夹 就 是 编译 的 结果 ， 它 们 都 是 通过 软 连 接 的 形式 放 
在 当前 的 项 目 空间 里 。 实 际 的 编译 结果 文件 都 会 保存 到 ~/.cache/bazel 目 录 
下 ， 这 是 可 以 通过 output_user_root 或 者 output_base 参 数 来 改变 的 息 。 在 这 些 编 
译 出 来 的 结果 当中 ，bazel-bin 目 录 下 存放 了 编译 产生 的 二 进 制 文件 以 及 运行 
该 二 进 制 文 件 所 需要 的 所 有 依赖 关系 。 在 当前 目录 下 运行 bazel-bin/hello_main 
we World”。 其 他 编译 结果 在 本 书 中 使 用 较 少 ， 这 里 就 不 
papu ° 


2.2 ”TensorFlow 安 装 


TensorFlow 提 供 了 多 种 不 同 的 安装 方式 ， 本 小 节 将 逐一 介绍 通过 Docker 安 
Fe. HT pip lh RM VRB o 


2.2.1 ”使 用 Docker 安 装 


Docker& 是 新 一 代 的 虚拟 化 技术 ， 它 可 de 所 有 
依赖 关系 统一 封装 Bl Docker fi f% = 中 ， 从 而 大 大 简化 了 安 过 程 。 通过 
Docker 运 行 应 用 时 需要 先 安装 Docker 。 Docker 支 持 大 部 分 的 操作 系 统 ， 下 面 


列 出 了 最 主要 的 一 些 。 


。Linux 系 统 : Ubuntu、CentOS、Debian、 红 帽 企 业 版 (Red Hat Enterprise 
Linux) 等 。 
e MacOS X: 10.10.3 Yosemite 或 以 上 。 


e Windows : Windows 7 或 以 上 。 


如 何 安 装 /使 用 Docker 不 是 本 书 重点 ， 这 里 就 不 再 介绍 在 不 同 操作 系统 下 如 何 
$2 Docker te。 当 Docker 安 装 完成 后 ， 只 需要 使 用 一 个 打包 好 的 Docker 镜 
像 。 对 于 TensorFlow 发 布 的 每 一 个 版 本 ， 谷 歌 都 提供 了 4 个 官方 镜像 。 表 2-1 给 
出 了 这 些 镜像 的 名 称 以 及 镜像 中 的 包含 的 内 容 。 


表 2-1 TensorFlow 官 方 Docker 镜 像 列表 


镜像 名 称 是 否 文 持 GPU 是 否 含有 源码 
tensorflow/tensorflow:0.9.0 T F 
tensorflow/tensorflow:0.9.0- “4 是 
devel 
tensorflow/tensorflow:0.9.0- 是 否 
gpu 
tensorflow/tensorflow:0.9.0- 是 是 
devel-gpu 


镜像 的 标签 (冒号 后 面 的 部 分 ) 给 出 了 TensorFlow 的 版 本 。 本 书 的 绝 大 部 分 
代码 将 统一 使 用 版 本 0.9.0 尾 。 才 云 科技 也 提供 了 TensorFlow 的 相关 镜像 
cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 号 。 与 官方 镜像 类 似 ，0.12.0 表 示 
TensorFlow 版 本 。 如 采 TensorFlow 推 出 更 新 的 版 本 ， 此 版 本 号 可 以 被 蔡 换 为 更 


新 的 版 本 号 。 在 官方 镜像 的 基础 上 ， 才 云 科技 提 供 的 镜像 进一步 整合 了 其 他 
机 器 学 习 工 具 包 以 及 TensorFlow 可 视 化 工具 TensorBoard 号 ， 使 用 起 来 可 以 更 
加 方便 。 才 云 科 技 即 将 上 线 TensorFlow 的 公有 云 平 台 caicloud.io， 在 此 平台 上 
可 以 直接 运行 TensorFlow 程 序 ， 从 而 省 去 了 安装 的 过 程 。 


当 Docker 安 闭 完 成 之 后 ， 可 以 通过 以 下 命令 来 局 动 一 个 TensorFlow 容 各 内 。 
在 第 一 次 运行 的 时 候 ，Docker 会 自动 下 载 镜像 。 


$ docker run -it -p 8888:8888 -p 6006:6006\ 


cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 


在 这 个 命令 中 ，-p 8888:8888 HAA AIS TT A Jupyter ARS BRAT Bl AS HAL a , 
这 样 在 浏览 器 中 打开 localhost:8888 束 能 看 到 类 似 下 图 的 Jupyter 界 面 。 在 此 镜 
像 中 运行 的 Jupyter 是 一 个 网 页 版 的 代码 编辑 器 ， 它 支持 创建 、 上 传 、 修 改 和 
po 。 通 过 Jupyter， 才 云 科技 提供 了 本 书 所 有 的 样 例 程序 ， 如 图 2- 
LAs ° 


二 Jupyter Logout 


Select items to perform actions on them. Upload New~ 人 


RICI GCI GO| 
alialialalele ‘ 
Hae or ae ae ae 


C 


Chapter09 


g 
9 


图 2-1 才 云 科技 提供 的 TensorFlow 镜 像 Jupyter 页 面 示意 图 


-p 6006:6006 将 容器 内 运行 的 TensorFlow 可 视 化 工具 TensorBoard 映 里 到 本 地 机 
絮 ， 通 过 在 浏览 器 中 打开 localhost:6006 就 可 以 将 TensorFlow 在 训练 时 的 状态 、 

图 片 数据 以 及 神经 网 络 结构 等 信息 全 部 展示 出 来 。 此 镜像 会 将 所 有 输出 到 /log 
目录 底下 的 日 志 全 部 可 视 化 。 具 体 如 何 使 用 TensorBoard 将 在 第 9 章 中 详细 介 


绍 。 


虽然 支持 GPU 的 Docker 镜 像 ， 但 是 要 运行 这 些 镜 像 需要 安装 最 新 的 Nvidia 驱动 
以 及 nvidia-docker 。 在 安装 完成 nvidia-docker 之 后 ， 可 以 通过 以 下 的 命令 运 


行 支持 GPU 的 TensorFlow 镜 像 。 在 镜像 启动 之 后 可 以 通过 和 上 面 类 似 的 方式 
使 用 TensorFlow ° 


$ nvidia-docker run -it -p 8888:8888 -p 6006:6006 \ 


cargo.caicloud.io/tensorflow/tensorflow:0.12.0-gpu 


2.2.2 ”使 用 pip 安 装 


pip 是 一 个 安装 、 管 理 Python 软件 包 的 工具 血 ， 通 过 过 pip 可 以 安装 已 经 打包 好 的 
TensorFlow 以 及 TensorFlow 所 需要 的 依赖 关系 。 er 前 TensorFlow “Lie 了 部 分 
操作 系统 下 打包 好 的 安装 文件 ， 过 或 者 需要 安装 定制 化 
代码 的 TensorFlow 请 参考 2.2.3 小 节 。 通 过 pip 安 装 可 以 分 为 以 下 三 步 。 


第 一 步 ， 安 装 pip 


# 在 Ubuntu/Linux 64-bit 环 境 下 安装 。 


$ sudo apt-get install python-pip python-dev 


# 在 Mac OS X 环 境 下 安装 。 
$ sudo easy_install pip 


$ sudo easy_install --upgrade six 


第 二 步 : 找到 合适 的 安装 包 URL 
仅 文 持 CPU 的 TensorFlow 安 装 包 有 : 


# Ubuntu/Linux 64-bit, Python 2.7 环 境 。 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ cpu/tensorflow-0.9.0-cp27-none-1linux_x86_64.whl 


# Ubuntu/Linux 64-bit, Python 3.4 环 境 。 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ cpu/tensorflow-0.9.0-cp34-cp34m-1linux_x86_64.whl 


# Ubuntu/Linux 64-bit, CPU only, Python 3.5 环 境 。 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ cpu/tensorflow-0.9.0-cp35-cp35m-1linux_x86_64.whl 


# Mac OS X, Python 2.7 环 境 。 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/m 
ac/ tensorflow-0.9.0-py2-none-any.whl 


# Mac OS X, Python 3.4 or 3.5 环 境 。 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/m 
ac/ tensorflow-0.9.0-py3-none-any.whl 


目前 只 有 在 安装 了 CUDA toolkit 7.5 和 CuDNN v4 的 64 位 Ubuntu 下 可 以 通过 pip 
安装 支持 GPU 的 TensorFlow， 对 于 其 他 系统 或 者 其 他 CUDA/CuDNN 版 本 的 用 
户 ， 则 需要 从 源码 进行 安装 来 支持 GPU 使 用 。 如 何 从 源码 进行 安装 将 在 2.2.3 
小 节 中 详 述 。 下 面 给 出 了 支持 GPU 的 TensorFlow pip 安 装 包 的 URL: 


# Python 2.7 环境 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ gpu/tensorflow-0.9.0-cp27-none-linux_x86_64.whl 


# Python 3 .4 环境 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ gpu/tensorflow-0.9.0-cp34-cp34m-1linux_x86_64.whl 


# Python 3.5 环 境 


$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/1 
inux/ gpu/tensorflow-0.9.0-cp35-cp35m-1linux_x86_64.whl 


第 三 步 : 通过 pip 安 装 TensorFlow 


# Python 2 环境 


$ sudo pip install --upgrade $TF_BINARY_URL 


# Python 3 环境 


$ sudo pip3 install --upgrade $TF_BINARY_URL 


通过 这 三 步 ，TensorFlow 环 境 就 安装 完成 了 。 


2.2.3 ”从 源 代码 编译 安装 


从 源 代码 安装 TensorFlow 的 过 程 主要 就 是 将 TensorFlow 源 代码 编译 成 pip 安 装 
包 的 过 程 。 将 TensorFlow 的 源 代码 编译 为 pip 所 使 用 的 wheel 文 件 之 后 ， 通 过 
2.2.2 小 市 中 介绍 的 pip install 的 方法 就 可 以 完成 安 效 。 在 编译 TensorFlow 源 代 


码 之 前 需要 先 安装 TensorFlow 所 依赖 的 其 他 工具 包 。 不 同 操 作 系 统 下 需要 安 
效 的 工具 包 上 略微 有 一 些 差 别 ， 而 且 在 不 同 操 作 系 统 下 安装 这 些 工 具 包 的 方法 
也 不 大 一 样 ， 这 一 小 节 将 以 Ubuntu 14.04 和 Mac OS X 为 例 来 介绍 如 何 安装 
TensorFlow(K#iAy LA. o 


在 Ubuntu 14.04 下 安装 依赖 的 工具 包 


首先 需要 安装 2.1.2 小 节 中 介绍 的 编译 工具 Bazel。 安 装 Bazel， 首 先 要 安装 
JDK8。 以 下 代码 给 出 了 安装 JDK8 的 方法 。 


$ sudo apt-get install software-properties-common 


$ sudo add-apt-repository ppa:webupd8team/java 


A 


sudo apt-get update 


A 


sudo apt-get install oracle-java8-installer 


然后 安装 Bazel 的 其 他 依赖 的 工具 包 : 


$ sudo apt-get install pkg-config zip g++ zlibig-dev unzip 


接 着 在 Baze 的 GitHub K A Tl HM 下 R 安装 A 

(https://github.com/bazelbuild/bazel/releases/tag/0.3.1) 。 其 中 0.3.1 为 Bazel 的 版 
本 号 。 如 果 有 更 狐 的 版 本 ， 可 以 相应 的 替换 上 面 连接 中 的 版 本 号 。 在 这 个 页 
面 中 下 载 安 装 包 bazel-0.3.1-jdk7-installer-linux-x86_64.sh， 然 后 就 可 以 通过 这 
个 安装 包 来 安装 Bazel。 以 下 代码 实现 了 Bazel 的 安装 过 程 。 


$ chmod +x bazel-0.3.1-jdk7-installer-linux-x86_64.sh 
$ ./bazel-0.3.1-jdk7-installer-linux-x86_64.sh -user (2) 


$ export PATH="$PATH:$HOME/bin" 
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# Python 2.7 环 境 


$ sudo apt-get install python-numpy swig python-dev python-wheel 


# Python 3.x 环 境 


$ sudo apt-get install python3-numpy swig python3-dev python3- 
wheel 


如 果 要 支持 GPU， 那 么 还 需要 安装 Nvidia 的 Cuda Toolkit (版 本 需要 大 于 或 等 
于 7.0) 和 cuDNN (版 本 需要 大 于 或 等 于 v2) 。 而 且 TensorFlow 只 支持 Nvidia 
计算 能 力 (compute capability) 大 于 3.0 的 GPU。 比如 Nvidia Titan ` Nvidia 
Titan X ` Nvidia K20 ` Nvidia K40 等 都 满足 要 求生 。 


Cuda Toolkit 的 安装 包 以 及 安装 方法 可 登录 https://developer.nvidia.com/cuda- 
downloads 获 得 。 在 根据 引导 填写 完 操作 系统 相关 参数 之 后 ， 该 网 站 将 提供 
Cuda 7.5 的 安装 包 及 详细 安装 方法 。 登 录 https://developer.nvidia.com/cudnn 可 
下 载 uDNN 的 安装 包 。 在 下 载 之 前 需要 先 注 册 ， 但 注册 是 完全 免费 的 。 注 册 
完成 后 可 以 下 载 cuDNN v4 Library for Linux， 其 中 v4 可 以 替换 成 更 新 的 版 本 。 
下 载 完成 后 ， 需 要 通过 以 下 命令 把 下 载 下 来 的 安装 包 复 制 到 Cuda 的 目录 (这 
里 假设 是 /usr/local/cuda) : 


tar xvzf cudnn-7.5-linux-x64-v4.tgz 
sudo cp cudnn-7.5-linux-x64-v4/cudnn.h /usr/local/cuda/include 
sudo cp cudnn-7.5-linux-x64-v4/libcudnn* /usr/local/cuda/1ib64 


sudo chmod a+r /usr/local/cuda/include/cudnn.h \ 


/usr/local/cuda/1ib64/ libcudnn* 


在 Mac OS X 下 安装 依赖 工具 包 


Homebrew 是 Mac OS X 下 一 个 软件 安装 工具 号 ， 通 过 这 个 工具 可 以 很 方便 地 
安装 比如 Bazel，SWIG 等 TensorFlow 的 依赖 工具 。Homebrew 自 己 的 安装 过 程 
也 很 简单 ， 以 下 代码 给 出 了 它 的 安装 方法 : 


/usr/bin/ruby -e "$(curl -fsSL 和 


https://raw.githubusercontent .com/Homebrew/install/master/inst 


安装 完 Homebrew 后 就 可 以 通过 brew 来 安装 Bazel 和 SWIG: 


$ brew install bazel swig 


然后 可 以 通过 easy_install 来 安装 Python 相关 的 依赖 工具 : 


$ sudo easy_install -U six 
$ sudo easy_install -U numpy 
$ sudo easy_install wheel 


$ sudo easy_install ipython 


fH 
yH 
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如 果 需 要 文 持 GPU ， 在 安装 Cuda Toolkit 和 cuDNN 之 前 ， 还 需 
Homebrew 安 装 GNU coreutils: 


$ brew install coreutils 
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安装 最 新 Cuda J 包 与 安装 方法 。 但 在 Mac OS X 下 可 以 通过 
Homebrew Cask 来 直接 安 


$ brew tap caskroom/cask 


$ brew cask install cuda 


Cuda Toolkit 安 装 完 成 之 后 需要 将 环境 变量 加 入 到 ~/.bash_profile 文 件 中 : 


export CUDA_HOME=/usr/local/cuda 
export DYLD_LIBRARY_PATH="$DYLD_LIBRARY_PATH: $CUDA_HOME/1ib" 


export PATH="$CUDA_HOME/bin: $PATH" 


https://developer.nvidia.com/cudnn 网 站 提供 了 cuDNN 的 安装 包 。 在 下 载 之 前 这 
个 网 站 需要 先 注 册 ， 注 册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 caDNN v4 
Library for OS 又 ， 其 中 v4 可 以 替换 成 更 新 的 版 本 。 下 载 完成 后 需要 将 文件 解 
压 并 放 到 Cuda Toolkit 的 目录 下 。 以 下 代码 完成 了 这 个 过 程 : 


$ sudo mv include/cudnn.h /Developer/NVIDIA/CUDA-7.5/include/ 
$ sudo mv lib/libcudnn* /Developer/NVIDIA/CUDA-7.5/1ib 


$ sudo ln -S /Developer/NVIDIA/CUDA- 
7.5/lib/libcudnn* /usr/local/cuda/lib/ 


配置 TensorFlow 编 译 环境 


在 所 有 依赖 的 工具 包 都 安装 完成 之 后 就 可 以 开始 从 源码 来 安装 TensorFlow 
无 论 在 哪个 操作 系统 a EN TRIE RAE, 首先 需要 下 载 源 代码 。 
过 以 下 命令 可 以 下 载 最 新 的 TensorFlow 源 代码 : 


$ git clone https://github.com/tensorflow/tensor flow 


使 用 以 上 命令 将 下 载 TensorFlow 最 新 的 代码 。 如 果 需 要 下 载 之 前 发 布 的 版 
本 ， 可 以 在 上 述 命 令 令 中 加 入 -b <branchname> 参 数 。 其 中 <branchname> 可 以 是 
r0.7、r0.8、r0.9 等 。 如 果 安 装 r0.8 或 者 更 老 的 版 本 ， 还 需要 在 上 述 命 令 中 加 入 - 
-recurse-submodules 参 数 来 拉 取 TensorFlow 依 赖 的 其 他 工具 -o 源码 下 载 完成 之 
后 ， 需 要 运行 configure 脚 本 来 配置 环境 信息 : 


$ cd tensorflow 
$ ./configure 
# 配置 Python 的 路 径 。 


Please specify the location of python. [Default is /usr/bin/python 


# 配置 是 否 支 持 谷歌 云 平台 。 


Do you wish to build TensorFlow with Google Cloud Platform support 
? [y/N]N 


No Google Cloud Platform support will be enabled for TensorFlow 


# 配置 是 否 支 持 GPU © 


Do you wish to build TensorFlow with GPU support? [y/N] y 
GPU support will be enabled for TensorFlow 


# 配置 GPU ° 


Please specify which gcc nvcc should use as the host compiler. [De 
fault is /usr/bin/gcc]: 


# 配置 Cuda SDK 版 本 。 


Please specify the Cuda SDK version you want to use, e.g. 7.0. [Le 
ave empty to use system default]: 7.5 


# 配置 CUDA toolkit Bx ° 


Please specify the location where CUDA 7.5 toolkit is installed. R 
efer to README.md for more details. [Default is /usr/local/cuda]: 


# 配置 Cudnn 版 本 。 


Please specify the Cudnn version you want to use. [Leave empty to 
use system default]: 4 


# 配置 cuDNN 目 录 。 


Please specify the location where cuDNN 4 library is installed. Re 
fer to README.md for more details. [Default is /usr/local/cuda]: 


# 配置 GPU 计算 能 力 。 


Please specify a list of comma- 
separated Cuda compute capabilities you want to build with. 


You can find the compute capability of your device at: https://dev 
eloper. nvidia.com/cuda-gpus. 


Please note that each additional compute capability significantly 
increases your build time and binary size. 


Setting up Cuda include 
Setting up Cuda lib 


Setting up Cuda bin 


Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI 1ib64 


Configuration finished 


当 环 境 配置 完成 之 后 通过 Bazel 来 编译 pip 的 安装 包 ， 然 后 通过 pip 安 装 : 


$ bazel build -c opt --config=cuda \ 
//tensorflow/tools/pip_package:build_ pip_package 
$ bazel-bin/tensorflow/tools/pip_package/build_pip_package \ 
/tmp/tensorflow_ pkg 


$ sudo pip install /tmp/tensorflow_pkg/tensorflow-0.9.0-py2-none- 
any .whl 


第 一 个 命令 中 --config=cuda 参 数 为 对 GPU 的 支持 。 如 果 不 需要 支持 GPU， 就 不 
se a 


需要 这 个 参数 了 。 最 后 一 行 中 wheel 安 装 包 的 名 字 (tensorflow-0.9.0-py2-none- 
any.whl) 和 系统 环境 有 关 ， 使 用 pip 安 装 之 前 可 以 先 通过 ls 命令 来 确认 安装 包 


2.3 ”TensorFlow 测 试 样 例 


通过 2.2 节 中 介绍 的 方法 安装 好 TensorFlow 后 ， 在 这 一 节 中 将 给 出 一 个 简单 的 
TensorFlow 样 例 程 序 来 实现 两 个 向 量 求 和 。TensorFlow 文 持 C、C++ 和 Python 
三 种 语言 ， 但 是 它 对 Python 的 支持 是 最 全 面 的 ， 所 以 本 书 中 所 有 的 样 例 都 会 
使 用 Python 语 言 。 通 过 本 节 给 出 来 的 简单 样 例 ， 读 者 可 以 测试 安装 好 的 
TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 认识 。 这 一 节 将 直接 
使 用 Python 自 带 的 交互 界面 来 演示 这 个 简单 样 例 : 


# python 
Python 2.7.6 (default, Jun 22 2015, 17:58:13) 
[GCC 4.8.2] on linux2 


Type "help", “copyright", "credits" or “license” for more information. 


在 进入 Python 交互 界面 之 后 ， 先 通过 import 操 作 加 载 TensorFlow: 


上 图 显示 TensorFlow 已 经 成 功 加 载 了 。Python 可 以 通过 重 命 名 来 使 引用 更 加 方 
便 ， 在 本 书 中 都 会 将 “tensorflow” 簿 写 为 “tf?。 然 后 定义 两 个 向 量 ，a 和 b: 


tf.constant([1.0,2.0], name="a") 


tf.constant([2.0,3.@], name="b") 


在 这 里 将 a 和 b 定 义 为 了 两 个 常量 (tf.constant) , 一 个 为 [1.0,2.0] ， 男 一 个 为 
[2.0,3.0]。 在 两 个 加 数 定义 好 之 后 ， 将 这 两 个 向 量 加 起 来 : 


>>> result = a + b 


熟悉 NumpPy 名 的 读者 会 发 现 ， 在 TensorFlow 之 中 ， 疝 量 的 加 法 也 是 可 以 直接 
通过 加 号 (+) 来 完成 的 。 最 后 输出 相 加 得 到 的 结果 : 


>>> sess = 
>>> sess. ee 


array([ 3. 5.], dtype=float32) 


要 输出 相 加 得 到 的 结果 ， 不 能 简单 地 直接 输出 result， 而 需要 先生 成 一 个 会 话 
(session) ， 并 通过 一 个 这 个 会 话 (session) 来 计算 结果 。 到 此 ， 就 实现 了 
一 个 非常 简单 的 TensorFlow 模 型 。 第 3 草 将 更 加 深入 地 介绍 TensorFlow 的 基本 
概念 ， 并 将 TensorFlow 的 计算 模型 和 神经 网 络 模型 结合 起 来 o 


小 结 


在 本 章 中 首先 介绍 了 TensorFlow 主 要 依赖 的 两 个 工具 Protocol Buffer 和 
Bazel ° Protocol Buffer 是 一 个 结构 数据 序列 化 的 工具 ， 在 TensorFlow 中 大 部 分 
数据 结构 都 是 通过 Protocol Buffer 的 形式 存储 的 。Bazel 是 一 个 谷歌 开源 的 编译 
工具 ， 在 2.2 节 中 讲解 了 如 何 通 过 Bazel 编 译 TensorFlow 的 源 代 码 。 谷 歌 官方 给 
出 的 大 部 分 样 例 程序 也 是 通过 Bazel 编 译 的 。 


在 介 绍 完 TensorFlow 所 依赖 的 工具 之 后 ，2.2 节 讲解 了 TensorFlow 的 不 同安 

方式 ， 以 及 不 同安 次 方式 适用 的 不 同 场景 。2.2.1 小 节 中 介 STS 
植 性 最 强 的 一 种 安装 方式 ， 它 支持 大 部 分 的 操作 系统 aes Linux 
和 Mac OS) 。 但 Docker 目 前 对 GPU 的 支持 有 限 ， 而 且 Docker 对 本 地 开发 环境 


的 文 持 也 不 够 友好 。 在 本 地 最 方便 的 安装 方式 是 使 用 pip。 使 用 pip 可 以 将 已 经 
打包 好 的 安装 包 安 装 到 本 地 。 合 歌 官方 提供 了 不 同 版 本 TensorFlow 的 pip 安 效 
包 。 这 种 方式 比较 适合 在 本 地 开发 TensorFlow 的 应 用 程序 ， 但 无 法 修改 
TensorFlow 本 号 。 最 后 一 种 方法 就 是 从 源码 安装 ， 这 种 方式 最 灵活 ， 但 比较 
身 或 者 需要 支持 比较 特殊 的 GPU 时 才 
会 被 用 到 。 


在 本 章 的 最 后 一 广 中 给 出 了 一 个 非常 简 短 的 TensorFlow 测 试 样 例 。 这 个 样 例 
程序 完成 了 两 个 向 量 加 法 的 功能 。 通 过 这 个 样 例 可 以 测试 安装 好 的 
TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 感受 。 在 第 3 章 中 将 
更 加 详细 地 介绍 TensorFlow 中 的 基本 概念 ， 并 讲解 如 何 通 过 TensorFlow 来 实现 
一 个 简单 神经 网 络 的 训练 过 程 。 


(1)_ https://developers.google.com/protocol-buffers/docs/overview 中 给 出 了 更 多 关于 Protocol Buffer 的 介绍 。 


(2)_ https://developers.google.com/protocol-buffers/docs/encoding 中 给 出 了 Protocol Buffer 的 具体 编码 方 
式 o 


c 
IN 
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(3)_ 在 最 新 的 Protocol Buffer3 再 支持 required 类 型 。 


(4)_ http://www.bazel.io 中 给 出 了 关于 Bazel 的 更 多 介绍 。 


(5)_ http://www.bazel.io/docs/be/workspace.html 中 给 出 了 项 目 空间 的 完整 文档 和 开发 手册 。 


(6)_ http://www.bazel.io/docs/be/overview.html 中 给 出 了 BUILD 文件 的 完整 文档 和 开发 手册 。 


(Z)_ http://www.bazel.io/docs/test-encyclopedia.html 中 给 出 了 更 多 关于 测试 目标 的 介绍 。 


(8)_ http://www.bazel.io/docs/output_directories.html 中 详细 介绍 了 编译 结果 的 目录 结构 。 


(9)_ https://www.docker.com/what-docker 中 详细 介绍 了 Docker 的 基本 概念 。 


(10)_ https://docs.docker.com/engine/installation 中 介绍 了 在 不 同 操作 系统 下 如 何 安装 Docker 。 


(LL), 因为 0.9.0 对 循环 神经 网 络 支持 不 是 特别 友好 ， 所 以 第 8 章 部 分 代码 使 用 了 版 本 0.10.0。 在 本 书 
使 用 了 其 他 版 本 的 样 例 代码 都 给 出 了 明确 的 注释 。 


(12)_ 才 云 科技 只 提供 0.12.0 及 以 上 版 本 的 TensorFlow 镜 像 。 


(13)_ 第 9 章 将 更 加 详细 地 介绍 如 何 使 用 TensorFlow 可 视 化 工具 TensorBoard ° 


(14)_ https://docs.docker.com/engine/reference/commandline/cli 中 给 出 了 Docker 命 令 的 文档 。 


(15)_ http://jupyter.org/ 中 给 出 了 对 Jupyter 更 加 详细 的 介绍 。 


NS 


(16)_ https://github.com/NVIDIA/nvidia-docker 中 介绍 了 nvidia-docker 的 基本 原理 和 安装 说 明 。 


is 


(17)_ https://pip.pypa.io 中 给 出 pip 的 文档 。 


(18)_ 其 他 版 本 的 Linux 可 以 参考 Ubuntu 14.04 下 的 安装 方法 。 目前 TensorFlow 没 有 比较 好 的 支持 在 
Windows 下 从 源码 安装 ，Windows 用 户 可 以 通过 2.2.1 节 中 介绍 的 Docker 来 使 用 TensorFlow ° 


(19)_ 具体 下 载 地 址 参考 官方 网 站 https://bazel.build/versions/master/docs/install.html 。 


(20)_ https://developer.nvidia.com/cuda-gpus 中 列 出 了 所 有 GPU 的 计算 能 力 。 


(21)_ http://brew.sh 中 介绍 Homebrew 的 功能 。 


(22) .NumPy 是 一 个 科学 计算 的 Python 工具 包 ，http:/www.numpyorg 中 给 出 了 更 多 关于 NumPy 的 介绍 。 
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在 第 2 人 中 介绍 了 如 何 安装 TensorFlow， 并 且 在 安装 好 的 TensorFlow 中 运行 了 
一 个 简单 的 癌 量 相 加 的 样 例 。 本 章 将 详细 地 介绍 TensorFlow 基 本 概念 。 在 本 
章 的 前 3 节 中 ， 将 分 别 介绍 TensorFlow 的 计算 模型 、 数 据 模型 和 运行 模型 。 通 
过 这 三 个 角度 对 TensorFlow 的 介绍 ， 读 者 可 以 对 TensorFlow 的 工作 原理 有 一 个 
大 致 的 了 解 。 在 本 章 的 最 后 一 节 中 ， 将 简单 介绍 神经 网 络 的 主要 计算 流程 ， 
并 介绍 如 何 通过 TensorFlow 实 现 这 些 计算 。 


3.1 ”TensorFlow 计 算 模 型 一 计算 图 


计算 图 是 TensorFlow 中 最 基本 的 一 个 概念 ，TensorFlow 中 的 所 有 计算 都 会 被 转 

化 为 计算 图 上 的 节点 。3.1.1 小 节 将 详细 介绍 TensorFlow 中 计算 图 的 基本 概 

| Ree ie eae aed 
用 法 2 


3.1.1 计算 图 的 概念 


TensorFlow 的 名 字 中 已 经 说 明了 它 最 重要 的 两 个 概念 Tensor U Flow ° 
Tensor 就 是 张 量 。 张 量 这 个 概念 在 数学 或 者 物理 学 中 可 以 有 不 同 的 解释 ， 但 
在 本 书 中 并 不 强调 它 本 身 的 含义 。 在 TensorFlow 中 ， 张 量 可 以 被 简单 地 理解 


为 多 维 数组 ， 在 3.2 节 中 将 对 张 量 做 更 加 详细 的 介绍 。 如 果 说 TensorFlow 的 第 
一 个 词 Tensor 表 明了 它 的 数据 结构 ， 那么 Flow 出 体现 了 它 的 计算 模型 。Flow 
翻译 成 中 文 就 是 “ 流 ”， 它 直观 地 表达 了 张 量 之 间 通 过 计算 相互 转化 的 过 程 。 
TensorFlow 是 一 个 通过 计算 图 的 形式 来 表述 计算 的 编程 系统 。TensorFlow 中 的 
每 一 个 计算 都 是 计算 图 上 的 一 个 节点 ， 而 节点 之 间 的 边 描述 了 计算 之 间 的 依 
赖 关 系 。 图 3-1 展 示 了 通过 TensorBoard 画 出 来 的 第 2 章 中 两 个 向 量 相 加 样 例 


的 计算 图 。 
add 


Co 


图 3-1 ”通过 TensorBoard 可 视 化 向 量 相 加 的 计算 银 


图 3-1 中 的 每 一 个 节点 都 是 一 个 运算 ， 而 每 一 条 边 代 表 了 计算 之 间 的 依赖 天 
系 。 如 果 一 个 运算 的 输入 依赖 于 男 一 个 运算 的 输出 ， 那 么 这 两 个 运算 有 依赖 
关系 。 在 图 3-1 中 ，a 和 b 这 两 个 常量 不 依赖 任何 其 他 计算 吕 。 而 add 计 算 则 依赖 
读 取 两 个 常量 的 取 值 。 于 是 在 图 3-1 中 可 以 看 到 有 一 条 从 a 到 add 的 边 和 一 条 从 
b 到 add 的 边 。 在 图 3-1 中 ， 没 有 任何 计算 依赖 add 的 结果 ， 于 是 代表 加 法 的 节 
点 add 没 有 任何 指 癌 其 他 和 点 的 边 。 所 有 TensorFlow 的 程序 都 可 以 通过 类 似 
3-1 所 示 的 计算 图 的 形式 来 表示 ， 这 就 是 TensorFlow 的 基本 计算 模型 。 


3.1.2 ”计算 图 的 使 用 


一 个 阶段 需要 定义 计算 图 中 所 有 的 计算 。 比 如 在 第 2 章 的 同 量 加 法 样 例 程序 中 
首先 定义 了 两 个 输入 ， 然 后 定义 了 一 个 计算 来 得 到 它们 的 和 。 第 二 个 阶段 为 
ae 这 个 阶段 将 在 3.3 市 中 介绍 。 以 下 代码 给 出 了 计算 定义 阶段 的 样 


import tensorflow as tf 
a = tf.constant([1.0, 2.0], name="a") 


b = tf.constant([2.0, 3.0], name="b") 


result = a+b 


在 Python 中 一 般 会 采用 “import tensorflow as tf 的 形式 来 载 入 TensorFlow， 这 样 
可 以 使 用 “tf 来 代 蔡 “tensorflow” 作 为 模块 名 称 ， 使 得 整个 程序 更 加 人 简洁。 这 是 
TensorFlow 中 非常 癌 用 的 技巧 ， 在 本 书后 面 的 章节 中 将 会 全 部 采用 这 种 加 载 
方式 。 在 这 个 过 程 中 ，TensorFlow 会 自动 将 定义 的 计算 转化 为 计算 图 上 的 贡 
点 。 在 TensorFlow 程 序 中 ， 系 统 会 自动 维护 一 个 默认 的 计算 图 ， 通 过 
tf.get_default_graph 范 数 可 以 获取 当前 默认 的 计算 图 。 以 下 代码 示意 了 如 何 获 
取 默 认 计 算 图 以 及 如 何 查 看 一 个 运算 所 属 的 计算 图 。 


# 通过 a.graph 可 以 查看 张 量 所 属 的 计算 图 。 因 为 没有 特意 指定 ， 所 以 这 个 计算 图 应 该 等 


F 


# 当前 默认 的 计算 图 。 所 以 下 面 这 个 操作 输出 值 为 True。 


print(a.graph is tf.get_default_graph()) 


be SE RERUN A, TensorFlow X JF iM tf.Graph BN AUK E BT Tt EE 
图 。 不 同 计算 图 上 的 张 量 和 运算 都 不 会 共享 。 以 下 代码 示意 了 如 何在 不 同 计 
算 图 上 定义 和 使 用 变量 &。 


import tensorflow as tf 


gi = tf.Graph() 


with g1.as_default(): 


# 在 计算 图 g1 中 定义 变量 “v”， 并 设置 初始 值 为 9 。 
v = tf.get_variable( 


"v", initializer=tf.zeros_initializer(shape=[1]) ) 


g2 = tf.Graph() 


with g2.as_default(): 


# 在 计算 图 g2 中 定义 变量 "v"， 并 设置 初始 值 为 1 。 


v = tf.get_variable( 


"v", initializer=tf.ones_initializer (shape=[1])) 


# 在 计算 图 91 中 读 取 变量 “v” 的 取 值 。 
with tf.Session(graph=g1) as sess: 
tf.initialize_all_variables().run() 


with tf.variable_scope("", reuse=True): 


# 在 计算 图 g1 中 ， 变 量 “v” 的 取 值 应 该 为 9， 所 以 下 面 这 行 会 输出 [0.]。 


print(sess.run(tf.get variable("v"))) 


# 在 计算 图 92 中 读 取 变量 “v” 的 取 值 。 
with tf.Session(graph=g2) as sess: 
tf.initialize_all_variables().run() 


with tf.variable_scope("", reuse=True): 


# 在 计算 图 g2 中 ， 变 量 “v” 的 取 值 应 该 为 1， 所 以 下 面 这 行 会 输出 [1.]。 


print(sess.run(tf.get variable("v"))) 


上 面 的 代码 产生 了 两 个 计算 图 ， 每 个 计算 图 中 定义 了 一 个 名 字 为 “v” 的 变量 。 
在 计算 图 g1 中 ， 将 v 初 始 化 为 0; 在 计算 图 g2 中 ， 将 v 初 始 化 为 1° 可 以 看 到 当 
运行 不 同 计算 图 时 ， 变 量 v 的 值 也 是 不 一 样 的 。TensorFlow 中 的 计算 图 不 仅仅 
可 以 用 来 隔 它 还 提供 了 管理 张 量 和 计算 的 机 制 。 计 算 图 可 以 
通过 tf.Graph.device 函 数 来 指定 运行 计算 的 设备 。 这 为 TensorFlow 使 用 GPU 提 
供 了 机 制 。 下 面 的 程序 可 以 将 加 法 计算 跑 在 GPU 上 。 


g = tf.Graph() 
# 指定 计算 运行 的 设备 。 
with g.device('/gpu:0'): 


result = a+b 


具体 使 用 GPU 的 方法 将 在 第 10 章 详 述 。 有 效 地 整理 TensorFlow 程 序 中 的 资源 
也 是 计算 图 的 一 个 重要 功能 。 在 一 个 计算 图 中 ， 可 以 通过 集合 (collection) 
来 管理 不 同类 别 的 资源 。 比 如 通过 tf.add to_collection 函 数 可 以 将 资源 加 入 一 
个 或 多 个 集合 中 ， 然 后 通过 tf. get_collection 获 取 一 个 集合 里 面 的 所 有 资源 。 这 
里 的 资源 可 以 是 张 量 ` 变量 或 运行 TensorFlow 程 序 所 需要 的 队列 AI, SE 
等 。 为 了 方便 使 用 ， ee 自动 管理 了 一 些 最 常用 的 集合 ， 表 3-1 总 结 
了 最 常用 的 几 个 自动 维护 的 集 


表 3-1 ”TensorFlow 中 维护 的 集合 列表 


集合 名 称 集合 内 容 使 用 场景 

tf.GraphKeys. VARIABLES 所 有 变量 持 A 
TensorFlow 
模型 

tf.GraphKeys. TRAINABLE_VARIABLES an 学 习 的 变 模型 训 


量 (一 般 指 神 练 、 生 成 模 
经 网 络 中 的 参 型 可 视 化 内 
数 ) 容 
tf.GraphKeys.SUMMARIES 日 志 生 成 相 TensorFlow 
天 的 张 量 | 算 可 视 


tf.GraphKeys.QUEUE_RUNNERS 处 理 输入 的 输入 处 理 
QueueRunner 

tf.GraphKeys.MOVING_AVERAGE_VARIABLES 所 有 计算 了 计算 变量 
滑动 平均 值 的 的 滑动 平均 


变量 值 


3.2 TensorFlow 数 据 模型 一 一 缚 量 


3.1 广 介绍 了 使 用 计算 图 的 模型 来 摘 ue Tensor low 7 BITE o 3X — HITZ 
TensorFlow 中 另外 一 个 基础 概念 = er PEATE A 
式 ， 在 3.2.1 小 节 中 将 介绍 张 量 的 一 些 基 本 属性 o 然后 在 3.2.2 小 节 中 将 介绍 如 
何 通 过 张 量 来 保存 和 获取 TensorFlow 计 算 的 结果 。 


3.2.1 张 量 的 概念 


从 TensorFlow 的 名 字 就 可 以 看 出 张 量 (tensor) 是 一 个 很 重要 的 概念 。 在 
TensorFlow 程 序 中 ， 所 有 的 数据 都 通过 张 量 的 形式 来 表示 。 从 功能 的 角度 上 
看 ， 张 量 可 以 被 简单 理解 为 多 维 数 组 。 其 中 零 阶 张 量 表示 标量 (scalar) ， 也 
就 是 一 个 数 备 ， 第 一 阶 张 量 为 向 量 (vector) ， 也 就 是 一 个 一 维 数组 ; 第 mn 阶 
张 量 可 以 理解 为 一 个 n 维 数组 。 但 张 量 在 TensorFlow 中 的 实现 并 不 是 直接 采用 
数组 的 形式 ， 它 只 是 对 TensorFlow 中 运算 结果 的 引用 。 在 张 量 中 并 没有 真正 
保存 数字 ， 它 保存 的 是 如 何 得 到 这 些 数字 的 计算 过 程 。 还 是 以 向 量 加 法 为 
当 运 行 如 下 代码 上 时， 并 不 会 得 到 加 法 的 结果 ， 而 会 得 到 对 结果 的 一 个 引 


import tensorflow as tf 


tf,constant 是 一 个 计算 ， 这 个 计算 的 结果 为 一 个 张 量 ， 保 存在 变量 a 中 。 


tt 


a = tf.constant([1.0, 2.0], name="a") 
b = tf.constant([2.9, 3.0], name="b") 
result = tf.add(a, b, name="add") 


print result 


输出 : 


Tensor("add:0", shape=(2,), dtype=float32) 


从 上 面 的 代码 可 以 看 出 TensorFlow 中 的 张 量 和 NumPy 中 的 数组 不 同 ， 

TensorFlow 计 算 的 结果 不 是 一 个 具体 的 数字 ， 而 且 一 个 张 量 的 结构 。 从 上 面 

代码 的 运行 结果 可 以 看 出 ， 一 个 张 量 中 主要 保存 了 三 个 属性 : AF 
(name) 、 维 度 (shape) 和 类 型 (type) ° 


张 量 的 第 一 个 属性 名 字 不 仅 是 一 个 张 量 的 唯一 标识 符 ， 它 同样 也 给 出 了 这 

张 量 是 如 何 计 算出 来 的 。 在 3.1.2 小 节 中 介 yn 
计算 图 的 模型 来 建立 ， 而 计算 图 上 的 每 一 个 节点 代表 了 个 计算 ， 计 算 的 结 
果 就 保存 在 张 量 之 中 。 所 以 张 量 和 计算 图 上 节点 所 代表 的 计算 结果 是 对 应 
的 。 这 样张 量 的 命名 就 可 以 通过 “node:src_output* 的 形式 来 给 出 。 其 中 node 为 
节点 的 名 称 ，src_output 表 示 当 前 张 量 来 自 节 点 的 第 几 个 输出 。 比 如 上 面 代码 
打出 来 的 “add:0” 束 说 明了 result 这 个 张 量 是 计算 节点 “add” 输 出 的 第 一 个 结果 
(编号 从 0 开始 ) 。 


张 量 的 第 二 个 属性 是 张 量 的 维度 (shape) 。 这 个 属性 描述 了 一 个 张 量 的 维度 
信息 。 比 如 上 面 样 例 中 shape=(2,) 说 明了 张 量 result 是 一 个 一 维 数组 ， 这 个 数组 
的 长 度 为 2。 维度 是 张 量 一 个 很 重要 的 属性 ， 围 绕 张 量 的 维 度 TensorFlow 也 给 
ee 在 这 里 先 不 一 一 列举 ， 在 后 面 的 章 世 中 将 使 用 到 部 分 
运算 。 


张 量 的 第 三 个 属性 是 类 型 (type) ， 每 一 个 张 量 会 有 一 个 唯一 的 类 型 。 
TensorFlow 会 对 参与 运算 的 所 有 张 量 进行 类 型 的 检查 ， 当 发 现 类 型 不 匹配 时 
会 报错 。 比 如 运行 下 面 这 上 段 程序 时 就 会 得 到 类 型 不 匹配 的 错误 : 


import tensorflow as tf 
a = tf.constant([1, 2], name="a") 


b = tf.constant([2.9, 3.0], name="b") 


result = a+b 


这 段 程 序 和 上 面 的 样 例 基 本 一 模 一 样 ， 唯 一 不 同 的 是 把 其 中 一 个 加 数 的 小 数 
太 去 挥 了 。 这 会 使 得 加 数 a 的 类 型 为 整数 而 加 数 b 的 类 型 为 实数 ， 这 样 程序 会 
报 类 型 不 匹配 的 错误 : 


ValueError: Tensor conversion requested dtype int32 for Tensor wit 
h dtype float32: 'Tensor("b:0", shape=(2,), dtype=float32)' 


如 果 将 第 一 个 加 数 指 定 成 实数 类 型 “a = tf.constant([1，2], name="a", 
dtype=tf.float32)”， 那 么 两 个 加 数 的 类 型 相同 就 不 会 报错 了 。 如 果 不 指定 类 
型 ，TensorFlow 会 给 出 默认 的 类 型 ， 比 如 不 带 小 数 点 的 数 会 被 默认 为 int32 ， 
带 小 数 点 的 会 默认 为 float32。 因 为 使 用 默认 类 型 有 可 能 会 导致 潜在 的 类 型 不 
匹配 问题 ， 所 以 一 般 建 议 通 过 指定 dtype 来 明确 指出 变量 或 者 常量 的 类 型 。 
TensorFlow 支 持 14 种 不 同 的 类 型 ， 主 要 包括 了 实数 (tf.float32 、tf.float64)、 整 
数 (tf.int8 ` tf.intl6 ` tf.int32 ` tf.int64 、tfuint8)、 布 尔 型 (ttbooD 和 复数 
(tf.complex64 ` tf.complex128) ° 


3.2.2” 张 量 的 使 用 


和 TensorFlow 的 计算 模型 相 比 ，TensorFlow 的 数据 模型 相对 比较 简单 。 张 量 使 
用 主要 可 以 总 结 为 两 大 类 。 


第 一 类 用 途 是 对 中 间 计 算 结 有 果 的 引用 。 当 一 个 计算 包含 很 多 中 间 结 果 时 ， 使 
用 张 量 可 以 大 大 提高 代码 的 可 读 性 。 以 下 为 使 用 张 量 和 不 使 用 张 量 记 杂 中 间 
结果 来 完成 向 量 相 加 的 功能 的 代码 对 比 。 


# 使 用 张 量 记 录 中 间 结 果 


a = tf.constant([1.0, 2.0], name="a") 
b = tf.constant([2.0, 3.0], name="b") 


result = a+b 


# 直接 计算 向 量 的 和 , 这 样 可 读 性 会 比较 差 。 


result = tf.constant([1.0, 2.0], name="a") + 


tf.constant([2.0, 3.0], name="b") 
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当 计 算 的 复杂 度 增加 时 (比如 在 构建 深层 神经 网 络 时 通过 张 量 来 引用 计算 
的 中 间 结 果 可 以 使 代码 的 可 阅读 性 大 大 提升 。 同 时 通过 张 量 来 存储 中 间 结 
果 ， 这 样 可 以 方便 获取 中 间 结 采 。 比 如 在 卷 积 神经 网 络 中 人 皇 ， 卷 积 层 或 者 池 
化 层 有 可 能 改变 张 量 的 维度 ， 通 过 result.get_shape 函 数 来 获取 结果 张 量 的 维度 
fa BARA ALITA i ° 


使 用 张 量 的 第 二 类 情况 是 当 计 算 图 构造 完成 之 后 ， 张 量 可 以 用 来 获得 计算 结 
果 ， 也 就 是 得 到 真实 的 数字 。 虽 然 张 量 本 身 没有 存储 具体 的 数字 ， 但 是 通过 
下 面 3.3 小 节 中 介绍 的 会 话 (session) ， 就 可 以 得 到 这 些 具体 的 数字 。 比 如 在 
上 述 代 码 中 ， 可 以 使 用 tf.Session().run (result) 语句 来 得 到 计算 结果 。 


3.3 ”TensorFlow 运 行 模 型 一 会 话 


前 面 的 两 厄 介绍 了 TensorFlow 是 如 何 组 织 数据 和 运算 的 。 本 记 将 介绍 如 何 使 
用 TensorFlow 中 的 会 话 (session) 来 执行 定义 好 的 运算 。 会 话 拥有 并 管理 
TensorFlow 程 序 运行 时 的 所 有 资源 。 当 所 有 计算 完成 之 后 需要 关闭 会 话 来 帮 
助 系统 回收 资源 ， 否则 就 可 能 出 现 资源 泄漏 的 问题 Wi 。TensorFlow 中 使 用 会 话 
的 模式 一 般 有 两 种 ， 第 一 种 模式 需要 明确 调用 会 话 生 成 男 数 和 关闭 会 话 函 
数 ， 这 种 模式 的 代码 流程 如 下 。 


# Uema e 


sess = tf.Session() 


# 使 用 这 个 创建 好 的 会 话 来 得 到 关心 的 运算 的 结 采 。 比 如 可 以 调用 


sess.run(result), 


# 来 得 到 3 .1 样 例 中 张 量 result 的 取 值 。 


Sess FUN aa a )) 


# 关闭 会 话 使 得 本 次 运行 中 使 用 到 的 资源 可 以 被 释放 。 


sess.close() 


使 用 这 种 模式 时 ， 在 所 有 计算 完成 之 后 ， 需 要 明确 调用 Session.close 芳 数 来 天 
财会 话 并 释放 资源 。 然 而 ， 当 程序 因为 异常 而 退出 时 ， 关 闭会 话 的 函数 可 能 
束 不 会 被 执行 从 而 导致 资源 泄漏 。 为 了 解决 异常 退出 时 资源 释放 的 问题 ， 
TensorFlow 可 以 通过 Python 的 上 下 文 管理 絮 来 使 用 会 话 。 以 下 代码 展示 了 如 何 
使 用 这 种 模式 。 
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# 创建 一 个 会 话 ， 并 通过 Python 中 的 上 下 文 管理 器 有 


with tf.Session() as sess: 


# 使 用 这 创建 好 的 会 话 来 计算 关心 的 结果 。 


sess.run(...) 


# 不 需要 再 调用 “Session.close()” 函数 来 关闭 会 话 ， 


# 当 上 下 文 退出 时 会 话 关 闭 和 资源 释放 也 自动 完成 了 。 


通过 Python 上下文 管 理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 “with* 的 内 部 就 可 
以 。 当 上 下 文 管理 器 退出 时 候 会 自动 释放 所 有 资源 。 这 样 既 解决 了 因为 异常 
退出 时 资源 释放 的 问题 ， 同 时 也 解决 了 起 记 调用 Session.close 画 数 而 产生 的 资 


3.1 节 介绍 过 TensorFlow 会 自动 生成 一 个 默认 的 计算 图 ， 如 果 没 有 特殊 指定 ， 
运算 会 自动 加 入 这 个 计算 图 中 。TensorFlow 中 的 会 话 也 有 类 似 的 机 制 ， 但 
TensorFlow 不 会 目 动 生 成 默认 的 会 话 ， 而 是 需要 手动 指定 。 当 默认 的 会 话 被 
指定 之 后 可 以 通过 tf.Tensor.eval 函 数 来 计算 一 个 张 量 的 取 值 。 以 下 代码 展示 了 
通过 设 定 默认 会 话 计算 张 量 的 取 值 。 


sess = tf.Session() 


with sess.as_default(): 


print(result.eval()) 


以 下 代码 也 可 以 完成 相同 的 功能 。 


sess = tf.Session() 


# 下 面 的 两 个 命令 有 相同 的 功能 。 


print(sess.run(result) ) 


print(result.eval(session=sess) ) 


在 交互 式 环境 下 〈 比 如 Python 脚本 或 者 Jupyter 的 编辑 器 下 ) ， 通 过 设置 默认 
会 话 的 方式 来 获取 张 量 的 取 值 更 加 方便 。 所 以 TensorFlow 提 供 了 一 种 在 交互 
式 环 境 下 直接 构建 默认 会 话 的 函数 。 这 个 函数 束 是 tt.InteractiveSession。 使 用 
这 个 落 数 会 自动 将 生成 的 会 话 注册 为 默认 会 话 。 以 下 代码 展示 了 
tf InteractiveSession EK ACH AE ° 


sess = tf. InteractiveSession () 
print(result.eval()) 
sess.close() 
通过 tf.InteractiveSession 函 数 可 以 省 去 将 产生 的 会 话 注册 为 默认 会 话 的 过 程 。 


无 论 使 用 哪 种 方法 都 可 以 通过 ConfigProto Protocol Buffer 来 配置 需要 生成 的 
会 话 。 下 面 给 出 了 通过 ConfigProto 配 置 会 话 的 方法 : 


config = tf.ConfigProto(allow_soft_placement=True, 


log_device_placement=True) 
sessi = tf. InteractiveSession(config=config) 


sess2 = tf. Session(config=config) 


ee GPU 分 配 策略 、 运 算 超 时 时 间 
等 参数 。 在 这 些 参 数 中 ， 常 使 用 的 有 两 个 。 第 一 个 是 
allow_soft_placement, 这 是 一 个 布 未 型 的 参 数 ， 当 它 为 True 的 时 候 ， 在 以 下 任 
意 一 个 条 件 成 立 的 时 候 ，GPU 上 的 运算 可 以 放 到 CPU 上 进行 : 


1. 运算 无 法 在 GPU 上 执行 。 


2: ue (比如 运算 被 指定 在 第 二 个 GPU 上 运行 ， 但 是 机 器 只 有 一 个 
GPU) 。 


3. 运算 输入 包含 对 CPU 计算 结果 的 引用 。 


个 参数 的 默认 值 为 False， 但 是 为 了 使 得 代码 的 可 移植 性 更 强 ， 在 有 GPU 的 
环境 下 这 个 参数 一 般 会 被 设置 为 True。 不 同 的 GPU 了 驱动 版 本 可 能 对 计算 的 支 
持 有 略微 的 区 别 ， 通 过 将 allow_soft_placement 参 数 设 为 True， 当 某 些 运算 无 法 
被 当前 GPU 支持 时 ， 可 以 自动 调整 到 CPU 上， 而 不 是 报销 。 类 似 的 ， 通 过 将 
这 个 参数 设置 为 True 可 以 让 程序 在 拥有 不 同 数量 的 GPU 机 器 上 顺利 运行 。 


第 二 个 使 用 得 比较 多 的 配置 参数 是 log_device_placement。 这 也 是 一 个 布尔 型 
的 参数 ， 当 它 为 True 时 日 车 人 
便 调 试 。 而 在 生产 环境 中 将 这 个 参数 设置 为 False 可 以 减少 


3.4 ”TensorFlow 实 现 神经 网 络 


上 面 3 太 从 不 同 角 度 介 绍 了 TensorFlow 的 基本 概念 。 在 这 一 六 中 ， 将 结合 神经 
网 络 的 功能 进一步 介 RAN fe ot Tensor Flow 7 SK E? BPN LE o A SEB.AI/ 
将 通 过 Tensortlow 游 和 场 来 简单 介绍 神经 网 络 的 主要 功能 以 及 计算 流程 sah 
后 3.4.2 小 节 将 介绍 神经 网 络 的 前 向 传播 算法 (forward-propagation) ， 并 给 
使 用 TensorFlow 的 代码 实现 。 Pe ee ee 
ERRA HZ PRA BERYL o 1E3.4.4/)) 77 FRG IT 2 HHS P28 a fe HH (back- 
propagation) 算法 的 原理 以 及 TensorFlow 对 反问 传播 算法 的 支持 。 最 后 在 3.4.5 
a 一 个 完整 的 TensorFlow 程 序 在 随机 的 数据 上 训练 一 个 简单 的 神 
ZTS e 


3.4.1 ”TensorFlow 游 乐 场 及 神经 网 络 简 介 


这 一 小 节 将 通过 TensorFlow 游 乐 场 来 快速 介绍 神经 网 络 的 主要 功能 。 
TensorFlow 游 乐 场 (http://playground.tensorflow.org) 是 一 个 通过 网 页 浏览 器 
束 可 以 训练 的 简单 神经 网 络 并 实现 了 可 视 化 训练 过 程 的 工具 。 图 3-2 给 出 了 
TensorFlow 游 乐 场 默认 设置 的 截图 。 


Tinker With a Neural Network Right Here in Your Browser. 


Dont Worry, You Can't Break It. We Promise 
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图 3-2 ”TensorFlow 游 乐 场 界 面 截图 


从 图 3-2 中 可 以 看 出 ，TensorFlow 游 乐 场 的 左 侧 提 供 了 4 个 不 同 的 数据 集 来 测试 
神经 网 络 。 默 认 的 数据 为 左上 角 被 框 出 来 的 那个 。 被 选中 的 数据 也 会 显示 在 
图 3-2 中 最 右边 的 “OUTPUT” 栏 下 。 在 这 个 数据 中 ， 可 以 看 到 一 个 二 维 平 面 上 
有 黑色 或 者 灰色 的 点 ， 每 一 个 小 点 代表 了 一 个 样 例 ， 而 点 的 颜色 代表 了 样 例 
的 标签。 因为 点 的 颜色 只 有 两 种 ， 所 以 这 是 一 个 二 分 类 的 问题 。 在 这 里 举 一 
个 例子 来 说 明 这 个 数据 可 以 代表 的 实际 问题 。 假 设 需要 判断 某 工 上 生产 的 零 
件 是 否 合格 ， 那 么 灰色 的 点 可 以 表示 所 有 合格 的 零件 而 黑色 的 表示 不 合格 的 
零件 。 这 样 判 断 一 个 零件 是 否 合格 就 变 成 了 区 分 点 的 颜色 。 


为 了 将 一 个 实际 问题 对 应 到 平面 上 不 同 颜色 点 的 划分 ， 还 需要 将 实际 问题 中 
的 实体 ， 比 如 上 壕 例 子 中 的 零件 ， 变 成 平面 上 的 一 个 点 和 。 这 了 驶 是 特征 提取 
解决 的 问题 。 还 是 以 零件 为 例 ， 可 以 用 零件 的 长 度 和 质量 来 大 致 描述 一 个 零 
件 。 这 样 一 个 物理 意义 上 的 零件 就 可 以 被 转化 成 长 度 和 质量 这 两 个 数字 。 在 
机 恬 学 习 中 ， 所 有 用 于 摘 述 实体 的 数字 的 组 合 就 是 一 个 实体 的 特征 向 量 

(feature vector) 。 在 第 1 章 中 介绍 过 ， 特 征 向 量 的 提取 对 机 器 学 习 的 效果 至 
关 重 要 ， 如 何 提取 特征 本 书 不 再 性 述 。 通 过 特征 提取 ， 束 可 以 将 实际 问题 中 
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那么 每 个 零件 就 是 二 维 平 面 上 的 一 个 点 。TensorFlow 游 乐 场 中 FEATURES 一 
栏 对 应 了 特征 向 量 。 在 本 小 节 的 样 例 中 ， 可 以 认为 x ,代表 一 个 零件 的 长 度 ， 
而 x ,代表 零件 的 质量 。 


特征 向 量 是 神经 网 络 的 输入 ， 神 经 网 络 的 主体 结构 显示 在 了 图 3-2 的 中 间 位 
置 。 目 前 主流 的 神经 网 络 都 是 分 层 的 结构 ， 第 一 层 是 输入 层 ， 代 表 特 征 同 量 
中 每 一 个 特征 的 取 值 。 比 如 如 果 一 个 零件 的 长 度 是 0.5， 那 么 x ,的 值 就 是 0.5。 
同一 层 的 节点 不 会 相互 连接 ， 而 且 每 一 层 只 和 下 一 层 连 接 ， 直 到 最 后 一 层 作 
为 输出 层 得 到 计算 的 结果 鱼 。 在 二 分 类 问题 中 ， 比 如 判断 零件 是 否 合格 ， 神 
经 网 络 的 输出 层 往往 只 包含 一 个 节点， 而 这 个 市 点 会 输出 一 个 实数 值 。 通 过 
这 个 输出 值 和 一 个 事先 设 定 的 阐 值 ， 束 可 以 得 到 最 后 的 分 类 结果 。 以 判断 零 
件 合格 为 例 ， 可 以 认为 当 输 出 的 数值 大 于 0 时 ， 给 出 的 判断 结果 是 零件 合格 ， 

反之 则 零件 不 合格 。 一 般 可 以 认为 当 和 输出 值 离 靖 值 越 远 时 得 到 的 答案 越 可 
aE o 


在 输入 和 和 输出 层 之 间 的 神经 网 络 叫做 隐藏 层 ， 一 般 一 个 神经 网 络 的 隐藏 层 越 
多 ， 这 个 神经 网 络 越 “ 深 ”。 而 所 谓 深 度 学 习 中 的 这 个 “深度 ”和 神经 网 络 的 层 
数 也 是 密切 相关 的 。 在 TensorFlow 游 乐 场 中 可 以 通过 点 击 “+” 或 者 “-” 来 增加 / 
减少 神经 网 络 隐 蔬 层 的 数量 。 除 了 可 以 选择 神经 网 络 的 深度 ，TensorFlow 游 
乐 场 也 支持 选择 神经 网 络 每 一 层 的 节点 数 以 及 学 习 率 (leaming rate) 、 激 活 
函数 (activation) 、 正 则 化 (regularization) 。 如 何 使 用 这 些 参数 将 在 后 面 的 
章节 中 讨论 。 在 本 小 节 中 都 直接 使 用 TensorFlow 游 乐 场 默 认 的 设置 。 当 所 有 


配置 都 选 好 之 后 ， 可 以 通过 左上 角 的 开始 标志 "人 人 "来 训练 这 个 神经 网 
络 。 图 3-3 中 给 出 了 和 迭代 训练 100 轮 之 后 的 情况 。 
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图 3-3 ”TensorFlow 游 乐 场 训练 100 轮 之 后 的 截图 


如 何 训练 一 个 神经 网 络 将 在 3.4.4 小 市 中 介绍 ， 在 这 里 主要 介绍 如 何 解 读 
TensorFlow 游 乐 场 的 训练 结果 。 在 图 3-3 中 ， 一 个 小 格子 代表 神经 网 络 中 的 一 
个 节点 ， 而 边 代表 节点 之 间 的 连接 。 每 一 个 节点 和 边 都 被 涂 上 了 或 深 或 浅 的 
颜色 ， 但 边 上 的 颜色 和 格子 中 的 颜色 含义 有 略微 的 区 别 。 每 一 条 边 代 表 了 神 
经 网 络 中 的 一 个 参数 ， 它 可 以 是 任意 实数 。 神 经 网 络 整 是 通过 对 参数 的 合理 
设置 来 解决 分 类 或 者 回归 问题 的 。 边 上 的 颜色 体现 了 这 个 参数 的 取 值 ， 当 边 
的 颜色 越 深 时 ， 这 个 参数 取 值 的 绝对 值 越 大 ， 当 边 的 颜色 接近 日 色 时 ， 这 个 
参数 的 取 值 接近 于 0 。 


每 一 个 节点 上 的 颜色 代表 了 这 个 节点 的 区 分 平面 。 上 有 具体 来 说 ， 如 果 把 这 个 平 
面 当成 一 个 第 卡尔 坐标 系 ， 这 个 平面 上 的 每 一 个 点 就 代表 了 (x,，x,) 的 一 
种 取 值 。 而 这 个 点 的 颜色 就 体现 了 x,，x ,在 这 种 取 值 下 这 个 节点 的 输出 值 。 
和 边 类 似 ， 当 节点 的 输出 值 的 绝对 值 越 大 时 ， 颜 色 越 深 生 。 下 面 将 具体 解读 
输入 层 x ,所 代表 的 节点 。 从 图 3-3 中 可 以 看 到 x ,这 个 节点 的 区 分 平面 就 是 y 
轴 。 因 为 这 个 节点 的 输出 就 是 x ,本 身 的 值 ， 所 以 当 x ,小 于 0 时 ， 这 个 节点 的 输 
出 就 是 负数 ， 而 x ,大 于 0 时 输出 的 就 是 正 数 。 于 是 y 轴 的 左 侧 都 为 灰色 ， 而 右 
侧 都 为 黑色 号。 图 3-3 中 其 他 节点 可 以 类 似 的 解读 。 唯 一 特殊 的 是 最 右边 
OUTPUT 栏 下 的 输出 节点 。 这 个 志 点 中 除了 显示 了 区 分 平面 之 外 ， 还 显示 了 
训练 数据 ， 也 就 是 希望 通过 神经 网 络 区 分 的 数据 点 。 从 图 3-3 中 可 以 看 到 ， 经 
过 两 层 的 隐藏 层 输出 节点 的 区 分 平面 已 经 可 以 完全 区 分 不 同 颜色 的 数据 


综 上 所 述 ， 使 用 神经 网 络 解 决 分 类 问题 主要 可 以 分 为 以 下 4 个 步骤 。 


1. 提取 问题 中 实体 的 特征 向 量 作为 神经 网 络 的 输入 。 不 同 的 实体 可 以 提取 不 
同 的 特征 回 量 ， 本 书 中 将 不 具体 介绍 。 本 书 假设 作为 神经 网 络 输 入 的 特征 同 
量 可 以 直接 从 数据 集中 获取 。 


2. 定义 神经 网 络 的 结构 ， 并 定义 如 何 从 神经 网 络 的 输入 得 到 输出 。 这 个 过 程 
器 是 神经 网 络 的 前 同 传 播 算法 ， 在 3.4.2 小 节 中 将 详细 介绍 。 


3. 通过 训练 数据 来 调整 神经 网 络 中 参数 的 取 值 ， 这 就 是 训练 神经 网 络 的 过 
程 。3.4.3 小 节 将 先 介绍 TensorFlow 中 表示 神经 网 络 参 数 的 方法 ， 然 后 3.4.4 小 
节 将 大 人 致 介绍 神经 网 络 优 化 算法 的 框架 ， 并 介绍 如 何 通 过 TensorFlow 实 现 这 
个 框架 。 


4， 使 用 训练 好 的 神经 网 络 来 预测 未 知 的 数据 。 这 个 过 程 和 步骤 2 中 的 前 向 传 
播 算法 一 致 ， 本 书 不 再 次 述 。 


下 面 的 几 个 小 节 将 具体 介绍 如 何 使 用 TensorFlow 来 实现 神经 网 络 中 的 不 同步 
又 。 最 后 在 3.4.5 小 节 将 给 出 一 个 完成 的 程序 来 训练 神经 网 络 。 


3.4.2 ”前 问 传 播 算法 简介 


在 3.4.1 小 六 中 简单 地 介绍 了 神经 网 络 可 以 将 输入 的 特征 癌 量 经 过 层 层 推导 得 
到 最 后 的 输出 ， 并 通过 这 些 输 出 解决 分 类 或 者 回归 问题 。 那 么 神经 网 络 的 输 
出 是 如 何 得 到 的 ? 在 这 一 小 节 中 将 详细 介绍 解决 这 个 问题 的 算法 前 癌 传 
播 算 法 。 不 同 的 神经 网 络 结构 前 癌 传 播 的 方式 也 不 一 样 ， 本 小 节 将 介绍 最 简 
单 的 全 连接 网 络 结构 的 前 向 传播 算法 ， 并 且 将 展示 如 何 通过 TensorFlow 实 现 
这 个 算法 。 为 了 介绍 神经 网 络 的 前 同 传播 算法 ， 需 要 先 了 解 神经 元 的 结构 。 
We a 图 3-4 显 示 了 一 个 最 简单 的 神经 元 结 


图 3-4 ”神经 元 结构 示意 图 


从 图 3-4 可 以 看 出 ， 一 个 神经 元 有 多 个 输入 和 一 个 输出 。 每 个 神经 元 的 输入 既 
可 以 是 其 他 神经 元 的 输出 ， 也 可 以 是 整个 神经 网 络 的 输入 。 所 谓 神 经 网 络 的 
结构 就 是 指 的 不 同 神经 元 之 间 的 连接 结构 。 如 图 3-4 所 示 ， 一 个 最 简单 的 神经 
元 结构 的 输出 就 是 所 有 输入 的 加 权 和 旦 ， 而 不 同 输入 的 权重 就 是 神经 元 的 参 
数 。 神 经 网 络 的 优化 过 程 束 是 优化 神经 元 中 参数 取 值 的 过 程 ， 在 后 面 的 革 市 
中 将 具体 介绍 。 本 小 市 将 重点 介绍 神经 网 络 的 前 同 传 播 过 程 。 图 3-5 给 出 了 一 
个 简单 的 判断 零件 是 否 合格 的 三 层 全 连接 神经 网 络 。 之 所 以 称 之 为 全 连接 神 
经 网 络 是 因为 相 邻 两 层 之 间 任 意 两 个 节点 之 间 都 有 连接 。 这 也 是 为 了 将 这 样 
的 网 络 结构 和 后 面 章 节 中 将 要 介绍 的 卷 积 层 、LSTM 结 构 区 分 。 图 3-5 中 除了 
输入 层 之 外 的 所 有 市 点 都 代表 了 一 个 神经 元 的 结构 。 本 小 市 将 通过 这 个 样 例 
来 解释 前 向 传 播 的 整个 过 程 。 


输入 层 隐藏 层 输出 层 


图 3-5 ”判断 零件 是 否 合格 的 三 层 神 经 网 络 结构 图 


计算 神经 网 络 的 前 向 传播 结果 需要 三 部 分 信息 。 第 一 个 部 分 是 神经 网 络 的 给 
入 ， 这 个 输入 就 是 从 实体 中 提取 的 特征 向 量 。 比 如 在 图 3-5 中 有 两 个 输入 ， 一 
个 是 零件 的 长 度 x,， 一 个 是 零件 的 质量 x,。 第 二 个 部 分 为 神经 网 络 的 连接 结 
构 。 神 经 网 络 是 由 神经 元 构成 的 ， 神 经 网 络 的 结构 给 出 不 同 神经 元 之 间 输 入 
输出 的 连接 关系 。 神 经 网 络 中 的 神经 元 也 可 以 称 之 为 节点 ， 在 本 书 之 后 的 章 
节 中 将 统一 使 用 节点 来 指 代 神经 网 络 中 的 神经 元 。 在 图 3-5 中 ，a , 节点 有 两 个 
输入 ， 他 们 分 别 是 x, 和 x, 的 输出 。 而 a ,的 输出 则 是 节点 y 的 输入 。 最 后 一 个 
部 分 是 每 个 神经 元 中 的 参数 。 在 图 3-5 中 用 W 来 表示 神经 元 中 的 参数 。W 的 上 
标 表明 了 神经 网 络 的 层 数 ， 比 如 W (1) 表示 第 一 层 节点 的 参数 ， 而 W " 表 
示 第 二 层 节 点 的 参数 。W 的 下 标 表 明了 连接 节点 编号 ， 比 如 ID 表示 连接 


x Ma ,, 方 点 的 边 上 的 权重 。 如 何 优化 每 一 条 边 的 权重 将 在 下 面 的 革 市 中 介 
绍 ， 这 一 市 假设 这 些 权 重 是 已 知 的 。 给 定神 经 网 络 的 输入 ， 神 经 网 络 的 结构 
以 及 边 上 权重 ， 束 可 以 通过 前 向 传播 算法 来 计算 出 神经 网 络 的 输出 。 图 3-6 展 
示 了 这 个 神经 网 络 前 回 传 播 的 过 程 。 


ai = Wx, + Wx, = 0.41 


图 3-6 ”神经 网 络 前 向 传播 算法 示意 图 
图 3-6 给 出 了 输入 层 的 取 值 x,=0.7 和 x ,=0.9。 从 输入 层 开 始 一 层 一 层 地 使 用 向 


前 传播 算法 。 首 先 隐藏 层 中 有 3 个 节点 ， 每 一 个 节点 的 取 值 都 是 输入 层 取 值 的 
加 权 和 。 下 面 给 出 了 a, 取 值 的 详细 计算 过 程 : 


p= NRE eer 


a ,和 a ,也 可 以 通过 类 似 的 方法 计算 得 到 ， 图 3-6 中 也 给 出 了 具体 的 计算 公 
式 。 在 得 到 第 一 层 节 点 的 取 值 之 后 ， 可 以 进一步 推导 得 到 输出 层 的 取 值 。 类 
似 的 ， 输 出 层 中 节操 的 取 值 就 是 第 一 层 的 加 权 和 : 


p= ay 4 y= 
+08) (08) <0 


因为 这 个 输出 值 大 于 阐 值 0， 所 以 在 这 个 样 例 中 最 后 给 出 的 答案 又 是 ， 这 个 产 
品 古 合 格 的 。 这 就 是 整个 前 疝 传 播 的 算法 。 前 癌 传 播 算法 可 以 表示 为 矩阵 乘 


BE o ERA, x BARAER 一 | X1, X2 if 而 Wo 组 
织 成 一 个 2x3 的 矩阵 ; 
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样 通 过 矩阵 乘法 可 以 得 到 隐藏 层 三 个 站点 所 组 成 的 癌 量 取 值 ; 
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类 似 的 输出 层 可 以 表示 为 : 


TOCA BOS BT H 1 E Se IZ a RB RTA AY 7 UIA OK T ° FETensorFlow F #2 
阵 乘 法 是 非常 容易 实现 的 。 以 下 TensorFlow 程 序 实 现 了 图 3-5 所 示 神 经 网 络 的 
前 向 传播 过 程 。 


a = tf.matmul(x, w1) 


y = tf.matmul(a, w2) 


其 中 tf.matmul 实 现 了 和 矩阵 乘法 的 功能 。 到 此 为 止 已 经 详细 地 介绍 了 神经 网 络 
的 前 向 传播 算法 ， 并 且 给 出 了 TensorFlow 程 序 来 实现 这 个 过 程 。 在 之 后 的 章 

节 中 会 继续 介绍 偏 置 (bias) ` BORER (activation function) 等 更 加 复杂 的 
神经 元 结构 “ 也 会 介绍 卷 积 神经 网 络 ，LSTM 结 构 等 更 加 复杂 的 神经 网 络 结 
构 。 对 于 这 些 更 加 复杂 的 神经 网 络 ，TensorFlow 也 提供 了 很 好 的 支持 ， 后 面 
的 章节 中 再 详细 介绍 


3.4.3 ”神经 网 络 参数 与 TensorFlow 变 量 


神经 网 络 中 的 参数 是 神经 网 络 实现 分 类 或 者 回归 问题 中 重要 的 部 分 。 本 小 市 
将 更 加 具体 地 介 绍 TensorFlow 古 如 何 组 织 、 保存 以 及 使 用 神经 网 络 中 的 参数 
的 。 eon |, 变量 (tf. Variable) 的 作用 束 是 保存 和 更 狐 神 经 网 络 中 
的 参数 。 和 其 他 编程 语言 类 似 ，TensorFlow 中 的 变量 也 需要 指定 初始 值 。 
为 在 神经 网 络 中 ， 给 参数 赋予 随机 初始 值 最 为 常见 ， 所 以 一 般 也 使 用 随机 数 
给 TensorFlow 中 的 变量 初始 化 。 下 面 一 段 代码 给 出 了 一 种 在 TensorFlow 中 声明 
一 个 2x3 的 矩阵 变量 的 方法 : 


weights = tf.Variable(tf.random_normal([2, 3], stddev=2) ) 


这 上 段 代码 调用 了 TensorFlow 变 量 的 声明 函数 tf.Variable。 在 变量 声明 函数 中 给 
出 了 初始 化 这 个 变量 的 方法 。TensorFlow 中 变量 的 初始 值 可 以 设置 成 随机 


Ro. HR ae ew 


其 他 变量 的 初始 值 计 算得 到 。 在 上 面 的 样 例 中 ， 


tf.random_normal([2, 3], stddev=2) 37" Æ — “4 2«3 AN FARE, PERE HH 的 元 素 是 均 
值 为 0， 标 准 差 为 2 的 随机 数 。tf.random_normal 函 数 可 以 通过 参数 mean 来 指定 
平均 值 ， 在 没有 指定 时 默认 为 0。 通 过 满足 正 态 分 布 的 随机 数 来 初始 化 神经 网 
络 中 的 参数 是 一 个 非常 常用 的 方法 。 除 了 正 态 分 布 的 随机 数 ，TensorFlow 还 
提供 了 ERNE 的 随机 数 生 成 器 ， 表 3-2 列 出 了 TensorFlow 目 前 文 持 的 所 有 随 


机 数 生 成 器 


tf.random_normal 


tf.truncated_normal 


tf.random_uniform 


tf.random_gamma 


表 3-2 ”TensorFlow 随 机 数 生成 函数 


随机 数 分 布 主要 参数 
正 态 分 布 平均 值 、 标 准 差 、 取 
值 类 型 


正 态 分 布 ， 但 如 果 随机 出 来 二 均值 ` PMEZ ` W 
ee 平均 值 超过 2 个 标准 值 类 型 
， 那 么 这 个 数 将 会 被 重 新 随 


a 
均匀 分 布 最 小 、 最 大 取 值 ， 取 
值 类 型 
Gamma 分 布 形状 参数 alpha、 尺 度 


参数 beta、 取 值 类 型 


TensorFlow 也 支持 通过 


用 的 常量 声明 方法 。 


函数 名 称 


tf.zeros 


常数 来 初始 化 一 个 变量 。 表 3-3 给 出 了 TensorFlow 中 党 


表 3-3 ”TensorFlow 常 数 生 成 画 数 


功能 样 例 
全 0 的 数组 tf.zeros([2, 3], int32) — 


> [[0, 0, 0], [0, 0, 0]] 


tf.ones 产生 全 1 的 数组 tf.ones([2, 3], int32) — 
> [[1, 1, 1], [1, 1, 1]] 
tf.fill 产生 一 个 全 部 为 给 定数 字 的 tf.fill([2, 3], 9) > [[9， 
数组 9, 9], [9, 9, 9]] 
tf.constant 产生 一 个 给 定 值 的 常量 tf.constant([1, 2, 3]) —> 
[1,2,3] 


在 神经 网 络 中 ， 偏 置 项 (bias) 通常 会 使 用 常数 来 设置 初始 值 。 以 下 代码 给 出 
了 一 个 样 例 。 


biases = tf.Variable(tf.zeros([3])) 


这 段 代码 将 会 生成 一 个 初始 值 全 部 为 0 且 长 度 为 3 的 变量 。 除 了 使 用 随机 数 或 
者 第 数 ，TensorFlow 也 文 持 通过 其 他 变量 的 初始 值 来 初始 化 新 的 变量 。 以 下 
代码 给 出 了 具体 的 方法 。 


w2 = tf.Variable (weights.initialized_value()) 


w3 = tf.Variable (weights.initialized_value() * 2.0) 


以 上 代码 中 ，w2 的 初始 值 被 设置 成 了 与 weights 变 量 相同 。w3 的 初始 值 则 是 
weights 初 始 值 的 两 倍 。 在 TensorFlow 中 ， 一 个 变量 的 值 在 被 使 用 之 前 ， 这 个 
变量 的 初始 化 过 程 需要 被 明确 地 调用 。 以 下 样 例 介绍 了 如 何 通过 变量 实现 神 
经 网 络 的 参数 并 实现 前 向 传播 的 过 程 。 


import tensorflow as tf 


# 声明 w1、w2 两 个 变量 。 这 里 还 通过 seed 参 数 设 定 了 随机 种 子 ， 


# 这 样 可 以 保证 每 次 运行 得 到 的 结果 是 一 样 的 。 


wi = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1) ) 


w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1) ) 


# 暂时 将 输入 的 特征 向 量 定义 为 一 个 常量 。 注 意 这 里 x 是 一 个 1*2 的 矩阵 。 


x = tf.constant([[0.7, 0.9]]) 


# 通过 3.4.2 小 市 描述 的 前 向 传播 算法 获得 神经 网 络 的 输出 。 


o 
ll 


tf.matmul(x, w1) 


< 
ll 


tf.matmul(a, w2) 


sess = tf.Session() 


# 与 3.4.2 中 的 计算 不 同 ， 这 里 不 能 直接 通过 sess.run(y) 来 获取 y 的 取 值 ， 


# 因为 w1 和 w2 都 还 没有 运行 初始 化 过 程 。 下 面 的 两 行 分 别 初始 化 了 w1 和 w2 两 个 变量 。 


sess.run(wi.initializer) # 初始 化 w1 
sess.run(w2.initializer) # 初始 化 w2 
# 输出 [[3.95757794] ] 
print(sess.run(y) ) 


sess.close() 


上 面 这 段 程 序 实现 了 神经 网 络 的 前 向 传播 过 程 。 从 这 上段 代码 可 以 看 到 ， 当 声 
明了 变量 w1、w2 之 后 ， 可 以 通过 w1 和 w2 来 定义 神经 网 络 的 前 向 传播 过 程 并 
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号 到 中 间 结 果 a 和 最 后 答案 y。 和 定义 w1、w2、a 和 y 的 过 程 对 应 了 3.1.2 小 节 中 介 


~ 


绍 的 TensorFlow 程 序 的 第 一 步 。 这 一 步 定 义 了 TensorFlow 计 算 图 中 所 有 的 计 
算 ， 但 这 些 被 定义 的 计算 在 这 一 步 中 并 不 真正 的 运行 。 当 需要 运行 这 些 计 算 
并 得 到 具体 数字 时 ， 需 要 进入 TensorFlow 程 序 的 第 二 步 。 


在 TensorFlow 程 序 的 第 二 步 会 声明 一 个 会 话 (session) ， 并 通过 会 话 计 算 结 
果 。 在 上 面 的 样 例 中 ， 当 会 话 定义 完成 之 后 就 可 以 开始 真正 运行 定义 好 的 计 
算 了 。 但 在 计算 y 之 前 ， 需 要 将 所 有 用 到 的 变量 初始 化 。 也 就 是 说 ， 虽 然 在 变 
量 定义 时 给 出 了 变量 初始 化 的 方法 ， 但 这 个 方法 并 没有 被 真正 运行 。 所 以 在 
计算 y 之 前 ， 需 要 通过 运行 w1.initializer 和 w2.initializer 来 给 变量 赋值 。 虽 然 直 
接 调用 每 个 变量 的 初始 化 过 程 是 一 个 可 行 的 方案 ， 但 是 当 变 量 数目 增多 ， 或 
者 变量 之 则 存在 依赖 关系 时 ， 单 个 调用 的 方案 束 比 较 磋 烦 了 。 为 了 解决 这 个 
问题 ，TensorFlow 提 供 了 一 种 更 加 便捷 的 方式 来 完成 变量 初始 化 过 程 。 下 面 
的 程序 展示 了 通过 tf.initialize_all_variables 函 数 实现 初始 化 所 有 变量 的 过 程 。 


init_op = tf.initialize_all_variables() 


sess.run(init_op) 


通过 tf.initialize_all_variables 范 数 ， 束 不 需要 将 变量 一 个 一 个 初始 化 了 。 这 个 
函数 也 会 目 动 处 理 变 量 之 间 的 依赖 关系 。 下 面 的 章节 都 将 使 用 这 个 函数 来 完 
成 变量 的 初始 化 过 程 。 


在 3.2 节 中 介绍 过 TensorFlow 的 核心 概念 是 张 量 (tensor) ， 所 有 的 数据 都 是 通 
过 张 量 的 形式 来 组 织 的 ， 那 么 本 小 节 介 绍 的 变量 和 张 量 是 什么 关系 呢 ? 在 
TensorFlow 中 ， 变 量 的 声明 函数 tf.Variable 是 一 个 运算 。 这 个 运算 的 输出 结果 
就 是 一 个 张 量 ， 这 个 张 量 也 就 是 本 市 中 介绍 的 变量 。 所 以 变量 只 是 一 种 特殊 
的 张 量 。 下 面 将 进一步 介绍 tf.Variable 操 作 在 TensorFlow 中 底层 是 如 何 实现 
的 。 图 3-7 给 出 了 神经 网 络 前 同 传 播 样 例 程 序 的 TensorFlow 计 算 图 的 一 个 骨 
分 ， 这 个 部 分 显示 了 和 变量 w1 相 关 的 操作 。 


w1 


w1 Assign 
K Assign (w1) $e 9 


read random_n... S0008 3 


(w1) Aiat MatMul 


图 3-7 ”神经 网 络 前 向 传播 样 例 中 变量 w1 相 关 部 分 的 计算 图 可 视 化 结果 加 


在 图 3-7 上 黑色 的 椭圆 代表 了 变量 w1， 可 以 看 到 wl 是 一 个 Variable 运 算 。 在 这 
张 图 的 下 方 可 以 看 到 w1 通 过 一 个 read 操 作 将 值 提 供给 了 一 个 乘法 和 运算， 这 个 
乘法 操作 就 是 tf.matmul (x, w1) 。 初 始 化 变量 w1 的 操作 是 通过 Assign 操 作 完 
成 的 。 在 图 3-7 上 可 以 看 到 Assign 这 个 万 点 的 输入 为 随机 数 生 成 函数 的 输出 ， 

而 且 输 出 赋 给 了 变量 w1。 这 样 束 完成 了 变量 初始 化 的 过 程 


3.1.2 小 节 介 绍 了 TensorFlow 中 集合 (collection) 的 概念 ， 所 有 的 变量 都 会 被 
自动 的 加 入 GraphKeys.VARIABLES 这 个 集合 。 通 过 tf.all_variables 函 数 可 以 拿 
到 当前 计算 图 上 所 有 的 变量 。 拿 到 计算 图 上 所 有 的 变量 有 助 于 持久 化 整个 计 
算 图 的 运行 状态 ， 在 第 5 章 中 将 更 加 详细 地 介绍 。 当 构建 机 器 学 习 模型 时 ， 比 
如 神经 网 络 ， 可 以 通过 变量 声明 函数 中 的 trainable 参 数 来 区 分 需要 优化 的 参数 
(比如 神经 网 络 中 的 参数 ) 和 其 他 参数 《比如 和 迭代 的 轮 数 ) 。 如 果 声 明 变 量 
时 参数 trainable 为 True， 那 么 这 个 变量 将 会 被 加 入 GraphKeys.TRAINABLE_ 
VARIABLES 人 集合。 在 TensorFlow 中 可 以 通过 tf.trainable_variables 函 数 得 到 所 
有 需要 优化 的 参数 。TensorFlow 中 提供 的 神经 网 络 优化 算法 会 将 
GraphKeys.TRAINABLE_VARIABLES 集 合 中 的 变量 作为 默认 的 优化 对 象 。 


类 似 张 量 ， 维 度 (shape) 和 类 型 (type) 也 是 变量 最 重要 的 两 个 属性 。 和 大 
部 分 程序 语言 类 似 ， 变 量 的 类 型 是 不 可 改变 的 。 一 个 变量 在 构建 之 后 ， 它 的 
类 型 就 不 能 再 改变 了 。 比 如 在 上 面 给 出 的 前 问 传 播 样 例 中 ，wi 的 类 型 为 
random_normal 结 果 的 默认 类 型 tf.float32， 那 么 它 将 不 能 被 赋予 其 他 类 型 的 
值 。 以 下 代码 将 会 报 出 类 型 不 匹配 的 错误 。 


(0) 


w1 = tf.Variable(tf.random_normal([2, 3], stddev=1), name="w1") 


w2 = tf.Variable(tf.random_normal([2, 3], dtype=tf.float64, stddev 


name="w2") 


w1.assign(w2) 


程序 将 报错 : 


TypeError: Input 'value' of 'Assign' Op has type float64 that does 


not match type float32 of argument 'ref'. 


E, 7r -= H 


维度 是 变量 另 一 个 重要 的 属性 。 和 类 型 不 大 一 样 的 是 ， 维 度 在 程序 运行 中 是 
有 可 能 改变 的 ， 但 是 需要 通过 设置 参数 validate_shape=False。 下 面 给 出 了 一 上段 
示范 代码 。 


> 


wi = tf.Variable(tf.random_normal([2, 3], stddev=1), name="w1i") 


w2 = tf.Variable(tf.random_normal([2, 2], stddev=1), name="w2") 


# 下 面 这 名 会 报 维度 不 匹配 的 错误 : 


# ValueError: Shapes (2, 3) and (2, 2) are not compatible 
tf.assign(wi, w2) 
# 这 一 句 可 以 被 成 功 执 行 。 


tf.assign(wi, w2, validate_shape=False) 


虽然 TensorFlow 支 持 更 改变 量 的 维度 ， 但 是 这 种 用 法 在 实践 中 比较 罕见 。 


3.4.4 ”通过 TensorFlow 训 练 神经 网 络 模型 


3.4.3 小 节 介 绍 了 如 何 通过 TensorFlow 变 量 来 表示 神经 网 络 中 的 参数 ， 并 给 出 
了 一 个 样 例 程 序 来 完成 神经 网 络 的 前 向 传播 过 程 。 在 这 个 样 例 程序 中 ， 所 有 
变量 的 取 值 都 是 随机 的 。 在 使 用 神经 网 络 解雇 实际 的 分 类 或 者 回归 问题 时 

《比如 判断 一 个 零件 是 否 合格 ) 需要 更 好 地 设置 参数 取 值 。 这 一 人 小节 将 简单 
介绍 使 用 监督 学 习 的 方式 来 更 合理 地 设置 参数 取 值 ， 同 时 也 将 给 出 
TensorFlow 程 序 来 完成 这 个 过 程 。 设 置 神经 网 络 参 数 的 过 程 就 是 神经 网 络 的 
训练 过 程 。 只 有 经 过 有 效 训练 的 神经 网 络 模 型 才 可 以 真正 的 解决 分 类 或 者 回 
归 问 题 。 图 3-8 对 比 了 训练 之 前 和 训练 之 后 神经 网 络 模型 的 分 类 效果 。 从 图 中 
可 以 看 出 ， 模 型 在 训练 之 前 是 完全 无 法 区 分 黑色 点 和 灰色 点 的 ， 但 经 过 训练 
之 后 区 分 效果 已 经 很 好 了 。 


图 3-8 TensorFlow 游 乐 场 训 练 前 和 训练 后 效果 对 比 


使 用 监督 学 习 的 方式 设置 神经 网 络 参数 需要 有 一 个 标注 好 的 训练 数据 集 。 以 
判断 零件 是 否 合格 为 例 ， 这 个 标注 好 的 训练 数据 集 就 古 收 集 的 一 批 合格 零件 
和 一 批 不 合格 零件 。 在 图 3-8 中 ， 图 上 黑色 点 和 灰色 点 代表 的 就 是 训练 数据 
集 ， 而 平面 上 或 深 或 浅 的 颜色 表示 了 神经 网 络 模 型 做 出 的 判断 。 如 3.4.1 小 市 
所 介绍 的 ， 一 个 地 方 的 颜色 越 深 ， 那么 表示 神经 网 络 模型 对 它 的 判断 越 有 信 
心 旦 。 左 侧 的 图 片 显 示 的 是 一 个 神经 网 络 在 训练 之 前 的 分 类 效果 ， 这 时 所 有 
变量 的 取 值 都 是 随机 数 。 可 以 看 到 这 个 平面 上 的 颜色 都 很 浅 ， 而 且 完 全 区 分 
不 出 灰色 点 和 黑色 点 。 右 侧 图 片 显 示 了 经 过 训练 后 的 神经 网 络 的 情况 。 可 以 
看 到 图 上 黑色 点 和 灰色 点 可 以 很 清晰 地 被 区 分 开 来 ， 而 且 除 了 中 间 有 一 圈 古 
浅 色 的 ， 其 他 地 方 神经 网 络 都 可 以 给 出 非常 确定 的 答案 。 


监督 学 习 最 重要 的 思想 就 是 ， 在 已 知 答案 的 标注 数据 集 上 ， 模 型 给 出 的 预测 
结果 要 尽量 接近 真实 的 答案 。 通 过 调整 神经 网 络 中 的 参数 对 训练 数据 进行 拟 
合 ， 可 以 使 得 模型 对 未 知 的 样本 提供 预测 的 能 力 。 图 3-8 中 右 侧 图 片 中 右上 和 角 
的 深 色 点 束 很 有 可 能 和 灰色 点 有 相同 的 标签 。 如 果 灰 色 点 代表 不 合格 的 零 
件 ， 那 么 这 个 深 色 点 所 代表 的 零件 应 该 也 不 合格 。 


在 神经 网 络 优化 算法 中 ， 最 常用 的 方法 是 反 癌 传播 算法 (backpropagation) ° 
反问 传播 算法 的 具体 工作 原理 将 在 下 面 的 4.3 小 方 中 详 述 。 本 小 节 将 主要 介绍 
训练 神经 网 络 的 整体 流程 以 及 TensorFlow 对 于 这 个 流程 的 支持 。 图 3-9 展 示 了 
使 用 反 癌 传播 算法 训练 神经 网 络 的 流程 图 。 


初始 化 变量 
训练 次 数 =0 


选取 一 部 分 i oe 
= mie ” 训练 次 数 +1 


aa 


过 前 向 传播 


得 预测 值 


结束 训练 


图 3-9 ”神经 网 络 反 向 传播 优化 流程 图 


从 图 3-9 中 可 以 看 出 ， 反 向 传播 算法 实现 了 一 个 从 代 的 过 程 。 在 每 次 迭代 的 开 
始 ， 首 先 需 要 选取 一 小 部 分 训练 数据 ， 这 一 小 部 分 数据 叫做 一 个 batch。 然 
后 ， 这 个 batch 的 样 例会 通过 前 癌 传播 算法 得 到 神经 网 络 模 型 的 预测 结果 。 因 
为 训练 数据 都 是 有 正确 答案 标注 的 ， 所 以 可 以 计算 出 当前 神经 网 络 模型 的 预 
测 答案 与 正确 答案 之 间 的 差距 。 最 后 ， 基 于 这 预测 值 和 真实 值 之 间 的 差距 ， 
反 回 传播 算法 会 相应 更 痢 神 经 网 络 参 数 的 取 值 ， 使 得 在 这 个 batch 上 神经 网 络 
模型 的 预测 结果 和 真实 答案 更 加 接近 。 


通过 TensorFlow 实 现 反 回 传 播 算 法 的 第 一 步 是 使 用 TensorFlow 表 达 一 个 batch 
的 数据 。 在 3.4.3 小 节 中 尝试 过 使 用 常量 来 表达 过 一 个 样 例 : 


x = tf.constant([[0.7, 0.9]]) 


但 如 果 每 轮 迭 代 中 选取 的 数据 都 要 通过 常量 来 表示 ， 那 么 TensorFlow 的 计算 
图 将 会 太 大 。 因 为 每 生成 一 个 常量 ，TensorFlow 都 会 在 计算 图 中 增加 一 个 节 
点 。 一 般 来 说 ， 一 个 神经 网 络 的 训练 过 程 会 需要 经 过 几 百 万 轮 甚 至 儿 亿 轮 的 
从 代 ， 这 样 计 算 图 或 会 非常 大 ， 而 且 利 用 率 很 低 。 为 了 避免 这 个 问题 ， 

TensorFlow 提 供 了 placeholder 机 制 用 于 提供 输入 数据 。placeholder 相 当 于 定义 
本 一 个 位 置 ， 这 个 位 置 中 的 数据 在 程序 运行 时 再 指定 。 这 样 在 程序 中 就 不 需 
要 生成 大 量 常 量 来 提供 输入 数据 ， 而 只 需要 将 数据 通过 placeholder 传 入 
TensorFlow 计 算 图 。 在 placeholder 定 义 时 ， 这 个 位 置 上 的 数据 类 型 是 需要 指定 
的 。 和 其 他 张 量 一 样 ，placeholder 的 类 型 也 是 不 可 以 改变 的 。placeholder 中 数 


据 的 维度 信息 可 以 根据 提供 的 数据 推导 得 出 ， 所 以 不 一 定 要 给 出 。 下 面 给 出 
了 通过 placeholder 实 现 前 向 传播 算法 的 代码 。 


import tensorflow as tf 


wi = tf.Variable(tf.random_normal([2, 3], stddev=1) ) 


w2 = tf.Variable(tf.random_normal([3, 1], stddev=1) ) 


# 定义 placeholder 作 为 存放 输入 数据 的 地 方 。 这 里 维度 也 不 一 定 要 定义 。 


# 但 如 果 维 度 是 确定 的 ， 那 么 给 出 维度 可 以 降低 出 错 的 概率 。 


x = tf.placeholder(tf.float32, shape=(1, 2), name="input") 


sed) 
ll 


tf.matmul(x, w1) 


tf.matmul(a, w2) 


< 
I 


sess = tf.Session() 
init_op = tf.initialize_all_variables() 


sess.run(init_op) 


# F 面 = 47 将 报 错 
InvalidArgumentError: You must feed a value for placeholder 


# tensor 'input_1' with dtype float and shape [1,2] 


print(sess.run(y) ) 


# 下 面 一 行将 会 得 到 和 3 .4. 2 小 节 中 一 样 的 输出 结果 : [[3.95757794]] 


print(sess.run(y, feed_dict={x: [[0.7,0.9]]})) 


在 这 段 程 序 中 替换 了 原来 通过 常量 定义 的 输入 x。 在 新 的 程序 中 计算 前 向 传播 
结果 时 ， 需 要 提供 一 个 feed_dict 来 指定 x 的 取 值 。feed_dict 是 一 个 字典 

(map) ， 在 字典 中 需要 给 出 每 个 用 到 的 placeholder 的 取 值 。 如 果 某 个 需要 的 
placeholder 没 有 被 指定 取 值 ， 那 么 程序 在 运行 时 将 会 报错 。 


上 面 的 程序 只 计算 了 一 个 样 例 的 前 向 传播 结果 ， 但 如 图 3-9 所 示 ， 在 训练 神经 
网 络 时 需要 每 次 提供 一 个 batch 的 训练 样 例 。 对 于 这 样 的 需求 ，placeholder 也 
可 以 很 好 地 支持 。 在 上 面 的 样 例 程序 中 ， 如 采 将 输入 的 1x2 和 矩阵 改 为 n x2 的 甜 
阵 ， 那 么 就 可 以 得 到 n 个 样 例 的 前 癌 传播 结果 了 。 其 中 n x2 的 矩阵 的 每 一 行为 
一 个 样 例 数据 。 这 样 前 向 传播 的 结果 为 n x1 的 矩阵 ， 这 个 矩阵 的 每 一 行 就 代 
表 了 一 个 样 例 的 前 向 传播 结果 。 下 面 的 程序 厂 给 出 了 一 个 示例 。 


x = tf.placeholder(tf.float32, shape=(3, 2), name="input") 


A 中 间 部 分 和 上 面 的 样 例 程序 一 样 。 


# 因为 x 在 定义 时 指定 了 n 为 3， 所 以 在 运行 前 向 传播 过 程 时 需要 提供 3 个 样 例 数 据 。 


print(sess.run(y, feed_dict= 
{x: [[0.7,0.9], [0.1,0.4], [0.5,0.8]]})) 


输出 结果 为 : 


[[ 3.95757794] 


[ 1.15376544] 


[ 3.16749191]] 


上 面 的 样 例 展示 了 一 次 性 计算 多 个 样 例 的 前 向 传播 结果 。 在 运行 时 ， 需 要 将 3 
个 样 例 [0.7,0.9]、[0.1,0.4] 和 [0.5,0.8] 组 成 一 个 3x2 的 和 矩阵 传 入 placeholder。 计 算 
得 到 的 结果 为 3x1 的 矩阵。 其 中 第 一 行 3.95757794 为 样 例 [0.7,0.9] 的 前 向 传播 
结果 ; 1.15376544 为 样 例 [0.1,0.4] 的 前 向 传播 结果 ;，3.16749191 为 样 例 [0.5,0.8] 
的 前 问 传 播 结果 。 


在 得 到 一 个 batch 的 前 癌 传 播 结果 之 后 ， 需 要 定义 一 个 损失 芳 数 来 刻画 当前 的 
预测 值 和 真实 答案 之 间 的 差距 。 人 然后 通过 反 向 传播 算法 来 调整 神经 网 络 参 数 
的 取 值 使 得 差距 可 以 被 缩小 。 损 失 函 数 和 反问 传播 算法 将 在 第 4 章 中 更 加 详细 
e e 个 人 简单 的 损失 函数 ， 并 通过 TensorFlow 定 义 了 反 
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# 定义 损失 函数 来 刻画 预测 值 与 真实 值得 差距 。 


cross_entropy = -tf.reduce_mean( 


y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0))) 


# 定义 学 习 率 ， 在 第 4 章 中 将 更 加 具体 的 介绍 学 习 率 。 
learning_rate = 0.001 
H 定义 反 向 传播 算法 来 优化 神经 网 络 中 的 参数 。 
train_step =\ 
tf.train.AdamOptimizer(learning_rate).minimize(cross_entropy) 
fe EHRE F, cross_entropy Œ X T B X16 A FHM (BZ E AY 2S a A 血 
(cross entropy) ， 这 是 分 类 问题 中 一 个 常用 的 损失 函数 。 第 二 行 tain_ step 定 
义 了 反 向 传播 的 优化 方法 。 目 前 TensorFlow 文 持 7 种 不 同 的 优化 器 ， 读 者 可 以 
根据 具体 的 应 用 选择 不 同 的 优化 算法 。 比 较 常用 的 优化 方法 有 三 种 : 


tf.train.GradientDescentOptimizer 5 tf.train. AdamOptimizer 和 


tf.train.MomentumOptimizer 。 在 定义 了 反问 传播 算法 之 后 ， 通 过 运行 
sess.run(train_step) 就 可 以 对 所 有 在 GraphKeys.TRAINABLE_VARIABLES 集 合 
中 的 变量 和 号 进行 优化 ， 使 得 在 当前 batch 下 损失 函数 更 小 。 下 面 的 3.4.5 小 节 将 
给 出 一 个 完整 的 训练 神经 网 络 样 例 程序 。 


3.4.5 “完整 神经 网 络 样 例 程序 


本 小 节 将 在 一 个 模拟 数据 集 上 训练 神经 网 络 。 下 面 给 出 了 一 个 完整 的 程序 来 
训练 神经 网 络 解决 二 分 类 问题 。 


import tensorflow as tf 


# NumPy 是 一 个 科学 计算 的 工具 包 ， 这 里 通过 NumPy 工 具 包 生成 模拟 数据 集 。 


from numpy.random import RandomState 


# 定义 训练 数据 patch 的 大 小 。 


batch_size = 8 


# 定义 神经 网 络 的 参数 ， 这 里 还 是 沿用 3.4.2 小 市 中 给 出 的 神经 网 络 结构 。 
wi = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1)) 


w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1) ) 


# 在 shape 的 一 个 维度 上 使 用 None 可 以 方便 使 用 不 同 的 batch 大 小 。 在 训练 时 需要 把 数据 
m 


# 成 比较 小 的 batch， 但 是 在 测试 时 ， 可 以 一 次 性 使 用 全 部 的 数据 。 当 数据 集 比 较 小 时 这 


样 比较 


# 方便 测试 ， 但 数据 集 比较 大 时 ， 将 大 量 数 据 放 入 一 个 batch 可 能 会 导致 内 存 汶 出 。 


x = tf.placeholder(tf.float32, shape=(None, 2), 


y_ = tf.placeholder(tf.float32, shape=(None, 1) 


# 定义 神经 网 络 前 向 传播 的 过 程 。 
a = tf.matmul(x, w1) 


tf.matmul(a, w2) 


< 
I 


# ENIRA WBA I eH RE ° 
cross_entropy = -tf.reduce_mean( 


y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0) 


name='xX-input' ) 


, nName='y-input' ) 


)) 


train_step = tf.train.AdamOptimizer(0.001).minimize(cross_entropy) 


# 通过 随机 数 生 成 一 个 模拟 数据 集 。 
rdm = RandomState(1) 
dataset_size = 128 


X = rdm.rand(dataset_size, 2) 


# 定义 规则 来 给 出 样本 的 标签 。 在 这 里 所 有 x1+x2<1 的 样 例 都 被 认为 是 正 样本 (比如 零件 


合格 )， 


# 而 其 他 为 负 样 本 (比如 零件 不 合格 )。 和 TensorFlow 游 乐 场 


=| 
XE; 


的 表示 法 不 大 一 样 的 地 方 


# 在 这 里 使 用 0 来 表示 人 负 样 本 ，1 来 表示 正 样 本 。 大 部 分 解决 分 类 问题 的 神经 网 络 部 会 采用 


# 0 和 1 的 表示 方法 。 


Y = [[int(x1+x2 < 1)] for (x1, x2) in X] 


# 创建 一 个 会 话 来 运行 TensorFlow 程 序 。 


with tf.Session() as sess: 
init_op = tf.initialize_all_variables() 
# 初始 化 变量 。 
sess.run(init_op) 
print sess.run(w1) 


print sess.run(w2) 


在 训练 之 前 神经 网 络 参 数 的 值 : 


wi = [[-0.81131822, 1.48459876, 0.06532937] 
[-2.44270396, 0.0992484, 0.59122431]] 
w2 = [[-0.81131822], [1.48459876], [0.06532937]] 


# 设 定 训练 的 轮 数 。 


STEPS = 5000 


for i in range(STEPS ) : 


# 每 次 选取 batch_size 个 样本 进行 训练 。 


start = (i * batch_size) % dataset_size 


end = min(start+batch_size, dataset_size) 


# 通过 选取 的 样本 训练 神经 网 络 并 更 新 参数 。 
sess.run(train_step, 
feed_dict={x: X[start:end], y_: Y[start:end]}) 


if i % 1000 == 0: 


# FRET ET a EC SE h 


total_cross_entropy = sess.run( 
cross_entropy, feed_dict={x: X, y_: Y}) 


print("After %d training step(s), cross entropy on all 
data is %g" % 


(i, total_cross_entropy) ) 


输出 结果 : 


After © training step(s), cross entropy on all data is 
0.0674925 


After 1000 training step(s), cross entropy on all data 
is 0.0163385 


After 2000 training step(s), cross entropy on all data 
is 0.00907547 


After 3000 training step(s), cross entropy on all data 
is 0.00714436 


After 4000 training step(s), cross entropy on all data 
is 0.00578471 


通过 这 个 


AW 
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预测 的 结果 和 真实 的 结果 差距 越 小 。 


print sess.run(w1) 


print sess.run(w2) 


在 训练 之 后 神经 网 络 参数 的 值 : 
wi = [[-1.9618274, 2.58235407, 1.68203783] 
[-3.4681716, 1.06982327, 2.11788988]] 


w2 = [[-1.8247149], [2.68546653], [1.41819501] ] 


可 以 发 现 这 两 个 参数 的 取 值 已 经 发 生 了 变化 ， 这 个 变化 就 是 训练 的 结果 。 


| 


它 使 得 这 个 神经 网 络 能 更 好 的 拟 合 提 供 的 训练 数据 。 


E 


上 面 的 程序 实现 了 训练 神经 网 络 的 全 部 过 程 。 从 这 段 程序 可 以 总 结 出 训练 神 
经 网 络 的 过 程 可 以 分 为 以 下 3 个 步 又: 


1. 定义 神经 网 络 的 结构 和 前 向 传播 的 输出 结 

2. 定义 损失 画 数 以 及 选择 反问 传播 优化 的 算法 。 

3. 生成 会 话 (tf.Session) 并 且 在 训练 数据 上 反复 运行 反 向 传播 优化 算法 。 
无 论 神 经 网 络 的 结构 如 何 变化 ， 这 3 个 步 又 是 不 变 的 。 


小 结 


本 章 首 先 介 绍 了 TensorFlow 里 最 基本 的 三 个 概念 一 一 计算 图 (tf.Graph) ` 5K 
= (tf.Tensor) 和 会 话 (tf.Session) 。 在 3.1 节 中 ， 介 绍 了 TensorFlow 中 计算 网 
的 概念 。 计 算 图 是 TensorFlow 的 计算 模型 ， 所 有 TensorFlow 的 程序 都 会 通过 计 
算 图 的 形式 表示 。 计 算 图 上 的 每 一 个 下 点 都 是 一 个 运算 ， 而 计算 图 上 的 边 则 
表示 了 运算 之 间 的 数据 传递 和 关系。 计算 图 上 还 保存 了 运行 每 个 运算 的 设备 信 
上 息 〈 比 如 是 通过 CPU 上 还 是 GPU 运行 ) 以 及 运算 之 间 的 依赖 关系 。 计 算 图 提 
供 了 管理 不 同 集合 的 功能 ， 并 且 TensorFlow 会 自动 维护 五 个 不 同 的 默认 集 
合 。3.2 万 介绍 了 张 量 的 概念 。 张 量 是 TensorFlow 的 数据 模型 TensorFlow F 
所 有 运算 的 输入 、 和 输出 都 是 张 量 。 张 量 本 吴 并 不 存储 任何 数据 ， 它 只 是 对 运 
算 结果 的 引用 。 通 过 张 量 ， 可 以 更 好 地 组 织 TensorFlow 程 序 。 接 着 3.3 节 介绍 
T TensorFlow 中 的 会 话 。 会 话 是 TensorFlow 的 运算 模型 ， 它 管理 了 一 个 
TensorFlow 程 序 拥 有 的 系统 资源 ， 所 有 的 运算 都 要 通过 会 话 执 行 。 


本 章 的 最 后 一 节 介 绍 了 如 何 使 用 TensorFlow 来 实现 神经 网 络 的 训练 过 程 。 首 
先 3.4.1 小 节 结 合 TensorFlow 游 乐 场 人 简单 介绍 了 神经 网 络 的 大 人 致 功能 ， 并 介绍 
了 使 用 神经 网 络 的 几 个 主要 步骤 。 然 后 在 接 下 来 的 3.4.2 到 3.4.4 小 和 中 ， 依 次 
介绍 了 神经 网 络 的 前 问 传 播 算法 、 神 经 网 络 中 的 参数 在 TensorFlow 中 的 表示 
以 及 神经 网 络 的 反 回 传播 优化 算法 框架 。 综 合 这 3 个 小 节 的 内 容 ， 最 后 3.4.5 小 
节 给 出 了 一 个 完整 的 TensorFlow 程 序 米 训练 神经 网 络 。 在 下 面 的 第 4 章 中 ， 将 
更 加 深入 地 介绍 设计 和 优化 神经 网 络 中 的 细节。 


(1D_TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 第 9 章 将 详细 介绍 这 个 工具 。 


(2) 为 了 建 模 的 方便 ，TensorFlow 会 将 常量 转化 成 一 种 永远 输出 固定 值 的 运算 。 


(3)_ 第 4 章 将 更 加 详细 地 介绍 TensorFlow 中 变量 的 概念 。 


(4)_ 张 量 的 类 型 也 可 以 是 字符 串 ， 但 在 本 书 中 不 做 过 多 的 讨论 。 


(5)_ 第 6 章 将 介绍 卷 积 神经 网 络 。 


(6)_ Protocol Buffer 在 第 2 章 中 有 介绍 。 


D. 在 真实 问题 


般 会 从 实体 中 抽取 更 多 的 特征 ， 所 以 一 个 实体 会 被 表示 为 高 维 空间 中 的 点 。 


(8)_ 有 一 些 神经 网 络 是 可 以 跨 层 连接 的 ， 但 目前 大 部 分 神经 网 络 结构 中 都 只 是 相 邻 两 层 有 连接 。 


(9)_ 在 TensorFlow 游 乐 场 网 站 上 ， 边 的 颜色 有 黄色 (文中 浅 色 部 分 ) MRE 〈 文 中 深 色 部 分 ) 的 区 别 ， 
黄色 越 深 表 示人 负 得 越 大 ， 监 色 越 深 表 示 正 得 越 大 。 


= 
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(10)_ 类 似 边 上 的 颜色 ，TensorFlow 游 乐 场 网 站 中 ， 点 上 的 颜色 也 有 黄色 〈 文 中 浅 色 部 分 | 和 蓝 色 ( 文 
深 色 部 分 ) ， 和 边 上 颜色 类 似 ， 黄 色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 


(11)_ 在 TensorFlow 游 乐 场 中 ，y 轴 左 侧 为 黄色 〈 文 中 浅 色 部 分 | ， 右 侧 为 蓝 色 (文中 深 色 部 分 ) 。 


(12)_ 更 加 复杂 的 神经 元 结构 将 在 第 4 章 中 介绍 。 
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(13)_ 此 图 是 通过 TensorBoard 可 视 化 工具 绘制 的 ，】 


TensorBoard ° 


(14)_ 在 TensorFlow 游 乐 场 有 两 种 颜色 ， 一 种 黄色 (文中 浅 色 部 分  ， 一 种 蓝 色 (文中 深 色 部 分 ) 。 任 
意 一 种 颜色 越 深 ， 都 代表 判断 的 信心 越 大 。 


(15). 在 第 4 章 中 将 更 加 具体 的 介绍 交叉 信 损 失 函 数 。 


(16)_ TensorFlow 计 算 图 中 集合 的 概念 在 3.1.2 小 节 有 介绍 。 


第 4 间 ” 深 层 神 经 网 络 


第 3 章 介 绍 了 TensorFlow 的 主要 概念 ， 并 且 给 出 了 一 个 完整 的 TensorFlow 程 序 
来 训练 神经 网 络 。 在 这 一 章 中 ， 将 进一步 介绍 如 何 设计 和 优化 神经 网 络 ， 使 
得 它 能 够 更 好 地 对 未 知 的 样本 进行 预测 。 首 先 在 4.1 节 中， 将 介绍 深度 学 习 与 
深层 神经 网 络 的 概念 ， 并 给 出 一 个 实际 的 样 例 来 说 明 深 层 神 经 网 络 可 以 解决 
部 分 浅 层 神经 网 络 解决 不 了 的 问题 。 然 后 在 4.2 节 中 ， 将 介绍 如 何 设 定神 经 网 
络 的 优化 目标 。 这 个 优化 目标 也 就 是 损失 函数 。 这 一 市 将 分 别 介 绍 分 类 问题 
和 回归 问题 中 比较 常用 的 几 种 损失 函数 。 除 了 使 用 经 典 的 损失 函数 外 ， 在 这 
一 节 中 将 给 出 一 个 样 例 来 讲解 如 何 通过 对 损失 函数 的 设置 ， 使 神经 网 络 优化 
的 目标 更 加 接近 实际 问题 的 需求 。 接 着 ，4.3 和 将 更 加 详细 地 介绍 神经 网 络 的 
反 疝 传播 算法 ， 并 且 给 出 一 个 TensorFlow 框 架 来 实现 反 向 传播 的 过 程 。 在 对 
神经 网 络 优 化 有 了 进一步 了 解 之 后 ， 最 后 4.4 节 将 介绍 在 神经 网 络 优化 中 经 常 
遇 到 的 几 个 问题 ， 并 且 给 出 解决 这 些 问题 的 具体 方法 。 


-~ 


4.1 深度 学 习 与 深层 神经 网 络 


维基 百科 对 深度 学 习 的 精确 定义 为 “一 类 通过 多 层 非 线性 变换 对 高 复杂 
性 数据 建 模 算 法 的 合集 ? 活 。 因 为 深层 神经 网 络 是 实现 “多 层 非 线性 变 
换 * 最 常用 的 一 种 方法 ， 所 以 在 实际 中 基本 上 可 以 认为 深度 学 习 就 是 深 
层 神 经 网 络 的 代名词 。 从 维基 百科 给 出 的 定义 可 以 看 出 ， 深 度 学 习 有 
两 个 非常 重要 的 特性 一 一 多 层 和 非 线 性 。 那 么 为 什么 要 强调 这 两 个 性 
质 ? 本 小 节 将 给 出 详细 的 解释 ， 并 且 将 通过 具体 的 样 例 来 说 明 这 两 点 
在 对 复杂 问题 建 模 时 是 缺 一 不 可 的 。4.1.1 小 节 将 先 介绍 线性 变换 存在 
的 问题 ， 以 及 为 什么 要 在 深度 学 习 的 定义 中 强调 “复杂 问题 ?”。 然 后 在 
4.1.2 小 节 中 ， 将 介绍 如 何 实现 去 线性 化 ， 并 给 出 TensorFlow 程 序 来 实现 
去 线性 化 的 功能 。 最 后 4.1.3 小 太 将 介绍 一 个 具体 的 样 例 来 说 明 深 层 网 
络 比 浅 层 网 络 可 以 解决 更 多 的 问题 。 


4.1.1 线性 模型 的 局 限 性 


在 线性 模型 中 ， 模 型 的 输出 为 输入 的 加 权 和 。 假 设 一 个 模型 的 输出 y 和 
输入 x ,满足 以 下 关系 ， 那 么 这 个 模型 束 是 一 个 线性 模型 。 


y=) wix; +b 
i 


sew. D © 民 为 模型 的 参数 。 被 称 之 为 线性 模型 是 因为 当 


模型 的 输入 只 有 一 个 的 时 候 ，x 和 y 形成 了 二 维 坐 标 系 上 的 一 条 直线 。 
类 似 的 ， 当 模型 有 n 个 输入 时 ，x 和 y 形成 了 n +1 维 空间 中 的 一 个 平 
面 。 而 一 个 线性 模型 中 通过 输入 得 到 输出 的 函数 被 称 之 为 一 个 线性 变 
换 。 上 面 的 公式 就 是 一 个 线性 变换 。 线 性 模型 的 最 大 特点 是 任意 线性 
模型 的 组 合 仍然 还 是 线性 模型 。 细 心 的 读者 可 能 已 经 注意 到 了 ，3.4.2 
小 下 中 所 介绍 的 前 回 传 播 算 法 实现 的 吏 是 一 个 线性 模型 。 在 3.4.2 小 下 
中 ， 前 同 传 播 的 计算 公式 为 : 
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根据 矩阵 乘法 的 结合 律 有 : 


y=xWOw™) =xW' 


而 W“”W ”其 实 可 以 被 表示 为 一 个 新 的 参数 W: 
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ste "是 新 的 参数 。 这 个 前 向 传播 的 算法 完全 符合 线性 模型 的 定 


义 。 从 这 个 例子 可 以 看 到 ， 虽 然 这 个 神经 网 络 有 两 层 (不 算 输 入 
Z) ， 但 是 它 和 单 层 的 神经 网 络 并 没有 区 别 。 以 此 类 推 ， 只 通过 线性 
变换 ， 任 意 层 的 全 连接 神经 网 络 和 单 层 神经 网 络 模型 的 表达 能 力 没 有 
任何 区 别 ， 而 且 它 们 部 是 线性 模型 。 然 而 线性 模型 能 够 解决 的 问题 是 
有 限 的 。 这 驶 生 线性 模型 最 大 的 局 限 性 ， 也 是 为 什么 深度 学 习 要 强调 
非 线性 。 在 下 面 的 篇 幅 中 ， 将 通过 TensorFlow 游 乐 场 给 出 一 个 具体 的 例 
子 来 验证 线性 模型 的 局 限 性 。 


还 是 以 判断 零件 是 否 合 格 为 例 ， 输 入 为 x, 和 x,， 其 中 x ,代表 一 个 零件 
质量 和 平均 质量 的 差 ，x ,代表 一 个 零件 长 度 和 平均 长 度 的 差 。 假 设 一 
个 零件 的 质量 及 长 度 离 平 均 质 量 及 长 度 越 近 ， 那 么 这 个 零件 越 有 可 能 
合格 。 于 是 训练 数据 很 有 可 能 服从 图 4-1 所 示 的 分 布 。 
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图 4-1 零件 合格 问题 数据 分 布 示 意图 


图 4-1 上 墨色 的 点 代表 合格 的 零件 ， 而 艾 色 的 点 代表 不 合格 的 零件 。 可 
以 看 到 虽然 黑色 和 灰色 的 点 有 一 些 重合 ， 但 是 大 部 分 代表 合格 零件 的 
墨色 点 都 在 原点 (0.0) 的 附近 ， 而 代表 不 合格 零件 的 灰 点 都 在 离 原点 相 
对 远 的 地 方 。 这 样 的 分 布 比较 接近 真实 问题 ， 因 为 大 部 分 真实 的 问题 
都 存在 大 致 的 趋势 ， 但 是 很 难 甚 至 无 法 完全 正确 地 区 分 不 同 的 类 别 。 


图 4-2 显 示 了 使 用 TensorFlow 游 乐 场 训练 线性 模型 解决 这 个 问题 的 效 
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图 4-2 ”使 用 线性 模型 解决 线性 不 可 分 问题 的 效果 


图 4-2 使 用 的 模型 有 一 个 隐藏 层 ， 并 且 在 顶部 激活 函数 (Activation) 

那 一 栏 中 选择 了 线性 (Linear) ， 这 和 3.4.1 小 节 中 介绍 的 神经 网 络 结构 
征 基 本 一 致 的 。 通 过 TensorFlow 游 乐 场 对 这 个 模型 训练 100 轮 之 后 ， 在 
最 右边 那 一 栏 可 以 看 到 训练 的 结果 。 从 图 4-2 上 可 以 看 出 ， 这 个 模型 并 
不 能 很 好 的 区 分 灰色 的 点 和 墨色 的 点 。 昌 然 整个 平面 的 颜色 都 比较 
浅 ， 但 是 中 间 还 是 隐约 有 一 条 分 界线 ， 这 说 明 这 个 模型 只 能 通过 直线 
来 划分 平面 。 如 采 一 个 问题 可 以 通过 一 条 直线 来 划分 ， 那 么 线性 模型 
H o 图 4-3 显 示 了 一 个 可 以 通过 直线 划分 的 


Iterations Learning rate Activation Regularization Regularization rate Problem type 
ô >I 
000,100 0.03 ~ Linear ~ None - 0 ~ Classification 
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图 4-3 ”使 用 线性 模型 解决 线性 可 分 问题 的 效果 


从 图 4-3 中 可 以 看 出 ， 在 线性 可 分 问题 中 ， 线 性 模型 束 能 很 好 区 分 不 同 
颜色 的 点 。 因 为 线性 模型 就 能 解决 线性 可 分 问题 ， 所 以 在 深度 学 习 的 
定义 中 特意 强调 它 的 目的 为 解决 更 加 复 洒 的 问题 。 所 谓 复杂 问题 ,至 
少 是 无 法 通过 直线 (或 者 高 维 空间 的 平面 ) 划分 的 。 在 现实 世界 中 ， 
绝 大 部 分 的 问题 都 是 无 法 线性 分 割 的 。 回 到 判断 零件 是 否 合 格 的 问 
题 ， 如 果 将 激活 函数 换 成 非 线 性 的 ， 那 么 可 以 得 到 如 图 4-4 所 示 的 结 
果 。 在 这 个 样 例 中 使 用 了 ReLU 激 活 函 数 。 使 用 其 他 非 线性 激活 函数 也 
可 以 得 到 类 似 的 效果 。 从 图 4-4 中 可 以 看 出 ， 当 加 入 非 线性 的 元 素 之 
后 ， 神 经 网 络 模型 束 可 以 很 好 地 区 分 不 同 颜色 的 点 了 。 
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图 4-4 ”使 用 非 线性 模型 解决 线性 不 可 分 问题 的 效果 


4.1.2 ”激活 函数 实现 去 线性 化 


4.1.1 小 下 已 经 所 到 过 激活 函数 ， 并 在 样 例 中 看 到 了 它 “ 和 神奇 > 的 作用 。 
在 这 一 个 小 节 中 ， 将 详细 介绍 激活 函数 是 如 何 工作 的 。 在 3.4.2 小 节 中 
介绍 的 神经 元 结构 的 输出 为 所 有 输入 的 加 权 和 ， 这 导致 整个 神经 网 络 
是 一 个 线性 模型 。 如 果 将 每 一 个 神经 元 《也 就 是 神经 网 络 中 的 节点 ) 
的 输出 通过 一 个 非 线 性 钞 数 ， 那 么 整个 神经 网 络 的 模型 也 束 不 再 十 线 
性 的 了 。 这 个 非 线性 范 数 就 古 激 活 函 数 。 图 4-5 显 示 了 加 入 激活 函数 和 
俩 置 项 之 后 的 神经 元 结构 。 
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图 4-5 50A tid A K A ETT n A E] 


下 面 的 公式 给 出 了 3.4.2 小 节 中 神经 网 络 结构 加 上 激活 函数 和 偏 置 项 后 
的 前 同 传播 算法 的 数学 定义 : 


(1) pya) 7 (1) 
Wa Wy Ws 


-1) wO wA 
Wy Wy Wy 


| fom b> b) 


= (Wom t+ Wix +b, WOx + Wx + 2.0.9 x + WYQx2 +s) 
=[f Px + WY +b). [Ma + Wx +b), fH Qa + WYx2 + Db)] 
相 比 3.4.2 小 节 中 的 定义 ， 上 面 的 定义 主要 有 两 个 改变 。 第 一 个 改变 是 


新 的 公式 中 增加 了 偏 置 项 (bias) ， 偏 置 项 是 神经 网 络 中 非常 第 用 的 一 
种 结构 。 第 二 个 改变 吏 是 每 个 万 点 的 取 值 不 再 是 单纯 的 加 权 和 “。 每 个 
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图 4-6 ”常用 的 神经 网 络 激活 函数 的 函数 图 像 
从 图 4-6 中 可 以 看 出 ， 这 些 激活 画 数 的 画 数 图 像 都 不 是 一 条 直线 。 所 以 
通过 这 些 激活 画 数 ， 每 一 个 节点 不 再 是 线性 变换 ， 于 是 整个 神经 网 络 
模型 也 就 不 再 是 线性 的 了 。 图 4-7 给 出 了 加 入 偏 置 项 和 ReLU 激 活 画 数 之 
后 ，3.4.2 小 节 中 神经 网 络 的 结构 。 


从 图 4-7 中 可 以 看 出 ， 偏 置 项 可 以 被 表达 为 一 个 输出 永远 为 1 的 节点 。 下 
面 的 公式 给 出 了 这 个 新 的 神经 网 络 模型 前 向 传播 算法 的 计算 方法 。 
隐 减 层 推 导 公 式 : 

an = fW Ox +x +b) = f (0.7x 0.2 +0.9x 0.3 +(—0.5)) = f(-0.09) = 0 

aa = f(W xa +WYx2 +b?) = f(0.7x 0.14 0.9 x (-0.5) + 0.1) = f(-0.28) =0 

aa = fW, +W yx +b) = f(0.7x0.4+0.9x 0.2 + (-0.1)) = £0.36) = 0.36 


输出 层 推导 公式 : 


f= f(W Par +W Qan + WG a +d ) = f (0.09 x 0.6 + 0.28 x 0.1+ 0.36 x (—0.2) + 0.1) 
= f (0.054 + 0.028 + (-0.072) + 0.1) = f(0.11) = 0.11 


图 4-7 ”加 入 偏 置 项 和 激活 函数 的 神经 网 络 结构 图 


目前 TensorFlow 提 供 了 7 种 不 同 的 非 线 性 激活 函数 ，tf.nn.relu ` 
tfsigmoid 和 tft.tanh 是 其 中 比较 利用 的 儿 个 。 当 然 ，TensorFlow 也 文 持 使 
用 自己 定义 的 激活 函数 。 以 下 代码 展示 了 如 何 通 过 TensorFlow 实 现 图 4- 
7 中 神经 网 络 的 前 问 传 播 算法 。 


a = tf.nn.relu(tf.matmul(x, wi) + biases1) 


y = tf.nn.relu(tf.matmul(a, w2) + biases2) 


从 上 面 的 代码 可 以 看 出 ，TensorFlow 可 以 很 好 地 文 持 使 用 了 激活 函数 和 
偏 置 项 的 神经 网 络 。 


413 ”多 层 网 络 解决 异 或 运算 


上 面 的 两 个 小 节 详 细 讲 解 了 线性 变换 的 问题 。 在 这 一 小 节 中 ， 将 通过 
一 个 实际 问题 来 讲解 深度 学 习 的 另外 一 个 重要 性 质 多 层 变 换 。 在 
神经 网 络 的 发 展 史 上 ， 一 个 很 重要 的 问题 区 是 异 或 问题 。 神 经 网 络 的 
理论 模型 由 Warren McCulloch 和 Walter Pitts 在 1943 年 首次 提出 ， 并 在 
1958 年 由 Frank Rosenblatt 提 出 了 感知 机 (perceptron) 模型 ， 从 数学 上 
完成 了 对 神经 网 络 的 精确 建 模 。 感 知 机 可 以 简单 地 理解 为 单 层 的 神经 
网 络 ， 图 4-5 中 给 出 的 神经 元 结构 就 是 感知 机 的 网 络 结构 。 


感知 机 会 先 将 输入 进行 加 权 和 ， 然 后 再 通过 4.1.2 小 节 中 介绍 的 激活 画 
数 最 后 得 到 输出 。 这 个 结构 就 古 一 个 没有 隐藏 层 的 神经 网 络 。 在 上 个 
世纪 60 年 代 ， 神 经 网 络 作 为 对 人 类 大 脑 的 模拟 算法 受到 了 很 多 天 注 。 
然而 到 了 1969 年 ，Marvin Minsky 和 Seymour Papert 在 Perceptrons: An 
Introduction to Computational Geometry 一 书 中 提出 感知 机 是 无 法 模拟 异 
或 运算 的 人 。 这 里 略 去 复杂 的 数学 求证 过 程 ， 而 是 通过 TensorFlow 游 乐 
场 来 模拟 一 下 通过 感知 机 的 网 络 结构 来 模拟 异 或 运算 。 图 4-8 显 示 了 通 
过 TensorFlow 游 乐 场 训 练 500 轮 之 后 的 情况 。 
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图 4-8 ”使 用 单 层 神 经 网 络 解决 异 或 问题 的 效果 图 


图 4-8 使 用 了 一 个 能 够 模拟 异 或 运算 的 数据 集 。 异 或 运算 直观 来 说 就 是 
如 果 两 个 输入 的 符号 相同 时 (同时 为 正 或 者 同时 为 负 ) 则 输出 为 0， 否 
U (一 个 正 一 个 负 ) 输出 为 1。 从 图 4-8 中 可 以 看 出 ， 左 下 角 (两 个 输入 
同时 为 负 ) 和 右上 角 (两 个 输入 同时 为 正 ) 的 点 为 黑色 ， 而 另外 两 个 
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层 数 设置 为 0， 这 样 就 模拟 了 感知 机 的 模型 。 通 过 500 轮 训练 之 后 ， 可 
以 看 到 这 个 感知 机 模型 并 不 能 将 两 种 不 同 颜色 的 点 分 开 ， 也 就 是 说 感 
知 机 无 法 模拟 异 或 运算 的 功能 。 


当 加 入 隐藏 层 之 后 ， 异 或 问题 整 可 以 得 到 很 好 地 解决 。 图 4-9 显 示 了 一 
个 有 4 个 节点 的 隐藏 层 的 神经 网 络 在 训练 500 轮 之 后 的 效 末 。 在 图 4-9 
中 ， 除 了 可 以 看 到 最 右边 的 输出 市 点 可 以 很 好 地 区 分 不 同 颜色 的 点 
外 ， 更 加 有 意思 的 是 ， 隐 藏 层 的 四 个 节点 中 ， 每 个 节点 都 有 一 个 角 是 
黑色 的 。 这 四 个 隐藏 节点 可 以 被 认为 代表 了 从 输入 特征 中 抽取 的 更 高 
维 的 特征 。 比 如 第 一 个 节点 可 以 大 致 代表 两 个 输入 的 逻辑 与 操作 的 结 
R ( 当 两 个 输入 都 为 正 数 时 该 节点 输出 为 正 数 ) 。 从 这 个 例子 中 可 以 
看 到 ， 深 层 神经 网 络 实际 上 有 组 合 特征 提取 的 功能 。 这 个 特性 对 于 解 
决 不 易 提取 特征 向 量 的 问题 《比如 图 片 识别 、 语 音 识 别 等 ) 有 很 大 帮 
助 。 这 也 是 深度 学 习 在 这 些 问 题 上 更 加 容易 取得 突破 性 进展 的 原因 。 
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对 神经 网 络 解决 异 或 问题 


由 


图 4-9 ”使 用 j 


4.2 WREDEN 


4.1 节 介绍 了 深度 学 习 的 一 些 性 质 ， 并 且 通 过 这 些 性 质 讲 解 了 如 何 构造 
一 个 更 加 有 效 的 神经 网 络 。 本 市 将 具体 介绍 如 何 刻画 不 同 神经 网 络 模 
型 的 效 末 。 神 经 网 络 模型 的 效果 以 及 优化 的 目标 是 通过 损失 男 数 (loss 
function) 来 定义 的 。 在 4.2.1 小 中 ， 将 讲解 适用 于 分 类 问题 和 回归 问题 
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节 中 ， 将 介绍 如 何 根 据 具体 问题 定义 损失 函数 ， 并 通过 具体 样 例 来 说 
明 不 同 损失 函数 对 训练 结果 的 影响 。 


4.2.1 经典 损失 函数 


分 类 问题 和 回归 问题 古 监 督学 习 的 两 大 种 类 。 这 一 小 市 将 分 别 介 绍 分 
类 问题 和 回归 问题 中 使 用 到 的 经 典 损失 函数 。 分 类 问题 布 望 解决 的 是 
将 不 同 的 样本 分 到 事先 定义 好 的 类 别 中 。 比 如 在 第 3 章 中 介绍 的 判断 一 
个 零件 是 否 合格 的 问题 就 是 一 个 二 分 类 问题 。 在 这 个 问题 中 ， 需 要 将 
样本 〈 也 就 是 零件 ) 分 到 合格 或 是 不 合格 两 个 类 别 中 。 在 4.3 世 中 将 要 
介绍 的 手写 体 数 字 识 别 问题 可 以 被 归纳 成 一 个 十 分 类 问题 手写体 数 
问题 可 以 被 看 成 将 一 张 包含 了 数字 的 图 片 分 类 到 0~9 这 10 个 数 子 


在 解决 判断 零件 是 否 合格 的 二 分 类 问题 时 ， 在 第 3 章 中 定义 过 一 个 有 单 
个 输出 节操 的 神经 网 络 。 当 这 个 太后 的 输出 越 授 近 0 时 ， 这 个 样本 越 有 
可 能 是 不 合格 的 ， 反 之 如 琳 输 出 越 接近 1， 则 这 个 样本 越 有 可 能 是 合格 
的 。 为 了 给 出 具体 的 分 类 结 琳 ， 可 以 取 0.5 作 为 网 值 。 几 是 输出 大 于 0.5 
的 样本 都 认为 是 合格 的 ， 小 于 0.5 的 则 是 不 合格 的 。 然 而 这 样 的 做 法 并 
个 容易 直接 推广 到 多 分 类 的 问题 。 虽 然 设 置 多 个 国 值 在 理论 上 是 可 能 
的 ， 但 在 解决 实际 问题 的 过 程 中 一 般 不 会 这 么 处 理 。 


通过 神经 网 络 解 决 多 分 类 问题 最 常用 的 方法 是 设置 n 个 输出 节点 ， 其 中 
n 为 类 别 的 个 数 。 对 于 每 一 个 样 例 ， 神 经 网 络 可 以 得 到 的 一 个 n 维 数组 
作为 输出 结果 。 数 组 中 的 每 一 个 维度 (也 就 是 每 一 个 输出 节点 ) 对 应 
一 个 类 别 。 在 理想 情况 下 ， 如 果 一 个 样本 属于 类 别 k， 那 么 这 个 类 别 所 
对 应 的 输出 节点 的 输出 值 应 该 为 1， 而 其 他 节点 的 输出 都 为 0。 以 识别 
数字 1 为 例 ， 神 经 网 络 模型 的 输出 结果 越 接近 [0,1,0,0,0,0,0,0,0,0] 越 好 。 
那么 如 何 判 断 一 个 输出 向 量 和 期 望 的 向 量 有 多 接近 呢 ? 交 义 炉 (cross 
entropy) 是 常用 的 评判 方法 之 一 。 交 义 炳 刻画 了 两 个 概率 分 布 之 间 的 
距离 ， 它 是 分 类 问题 中 使 用 比较 广 的 一 种 损失 函数 。 


交叉 精 是 一 个 信息 论 中 的 概念 ， 它 原本 是 用 来 估算 平均 编码 长 度 的 。 
在 本 书 中 不 过 多 讨论 它 原 本 的 意义 ， 而 会 通过 它 的 公式 以 及 具体 的 样 
例 来 讲解 它 对 于 评估 分 类 效果 的 意义 。 给 定 两 个 概率 分 布 p 和 qd ， 通 过 
q 来 表示 p AIBC AA : 


H(p.q)=—)>. p(x) log q(x) 


TE TRAC SCAG ZU ET A BES Op A ZA AES, PRT a 2 
却 不 一 定 征 一 个 概率 分 布 。 概 率 分 布 刻 画 了 不 同事 件 发 生 的 概率 。 当 


事件 总 数 是 有 限 的 情况 下 ， 概 率 分 布 画 数 p( = x) ALE 
vx pX=s)e[Ol] BY p(X =x)=] 


也 就 是 说 ， 任 意 事 件 发 生 的 概率 都 在 0O 和 1 之 间 ， 且 总 有 某 一 个 事件 发 
E (概率 的 和 为 1) 。 如 采 将 分 类 问题 中 “一 个 样 例 属 于 某 一 个 类 别 ” 看 
成 一 个 概率 事件 ， 那 么 训练 数据 的 正确 答案 就 符合 一 个 概率 分 布 。 
为 事件 “一 个 样 例 属 于 不 正确 的 类 别 ” 的 概率 为 0， 而 “一 个 样 例 属 于 正确 
的 类 别 ” 的 概率 为 1。 如 何 将 神经 网 络 前 向 传播 得 到 的 结果 也 变 成 概率 
分 布 呢 ? Softmax 回 归 吏 是 一 个 非常 闻 用 的 方法 。 


Softmax 回 归 本 身 可 以 作为 一 个 学 习 算 法 来 优化 分 类 结果 ， 但 在 
TensorFlow 中 ，Softmax 回 归 的 参数 被 去 挥 了 ， 它 只 是 一 层 额 外 的 处 理 
层 ， 将 神经 网 络 的 输出 变 成 一 个 概率 分 布 。 图 4-10 展 示 了 加 上 了 
Softmax 回 归 的 神经 网 络 结构 图 。 


输入 层 隐藏 层 原始 输出 层 softmax 层 最 终 输出 层 


图 4-10 ”通过 Softmax 层 将 神经 网 络 输 出 变 成 一 个 概率 分 布 


假设 原始 的 神经 网 络 输出 为 y,，y,，...，y,， 那 么 经 过 Softmax 回 归 处 
理 之 后 的 输出 为 : 


softmax(y)i = yi = 


从 以 上 公式 中 可 以 看 出 ， 原 始 神经 网 络 的 输出 被 用 作 置 信 度 来 生成 新 
的 输出 ， 而 新 的 输出 满足 概率 分 布 的 所 有 有 要求。 这 个 新 的 输出 可 以 理 
解 为 经 过 神经 网 络 的 推导 ， 一 个 样 例 为 不 同类 别 的 概率 分 别 是 多 大 。 
这 样 就 把 神经 网 络 的 输出 也 变 成 了 一 个 概率 分 布 ， 从 而 可 以 通过 交叉 
炉 来 计算 预测 的 概率 分 布 和 真实 答案 的 概率 分 布 之 间 的 距离 了 。 


M E X AA A a A E a a A A A D l T R 


( H(p.g)# H(q, p) ) 它 刘 本 的 是 通过 入 


率 分 布 q 来 表达 概率 分 布 p 的 困难 程度 。 因 为 正确 答案 是 希望 得 到 的 结 
果 ， 所 以 当 交 义 焕 作为 神经 网 络 的 损失 函数 时 ，p 代表 的 是 正确 答案 ， 
q 代表 的 是 预测 值 。 交 叉 精 刻画 的 是 两 个 概率 分 布 的 距离 ， 也 就 是 说 区 
又 箭 值 越 小 ， 两 个 概率 分 布 越 接近 。 下 面 将 给 出 两 个 具体 样 例 来 直观 
地 说 明 通过 交叉 精 可 以 判断 预测 答案 和 真实 答案 之 间 的 距离 。 假 设 有 
一 个 三 分 类 问题 ， 某 个 样 例 的 正确 答案 是 (1,0,0) 。 某 模型 经 过 
Softmax 回 归 之 后 的 预测 答案 是 (0.5,0.4,0.1) ， 那 么 这 个 预测 和 正确 答 
FZ BIA IS SEL 


H((1,0,0),(0.5,0.4,0.1))= -(1x log0.5+0xlog0.4+0xlog0.1) x 0.3 


如 果 另 外 一 个 模型 的 预测 是 (0.8,0.10.D)， 那 么 这 个 预测 值 和 真实 值 之 
[Ea] RISE MO E : 


H((1,0,0),(0.8,0.1,0.1))=-(1x10g0.8+0xlog0.1+ 0x log0.1) = 0.1 
从 直观 上 可 以 很 容易 地 知道 第 二 个 预测 答案 要 优 于 第 一 个 。 通 过 交叉 


We BU ZEA he BA (BAASE) 。 在 3.4.5 小 
TH, BM TensorFlowSk Hit 22 a, ERBE : 


cross_entropy = -tf.reduce_mean( 


y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0))) 


其 中 y_ 代 表 正 确 结果 ，y 代 表 预 测 结 果 。 本 小 世 将 更 加 具体 的 讲解 这 个 
计算 过 程 。 这 一 行 代码 包含 了 四 个 不 同 的 TensorFlow 运 算 。 通 过 
tf.clip_by_value 函 数 可 以 将 一 个 张 量 中 的 数值 限制 在 一 个 范围 之 内 ， 这 
样 可 以 避免 一 些 运 算 错 误 (比如 1og 0 是 无 效 的 ) 。 下 面 给 出 了 使 用 
tf.clip_by_value 的 人 简单 样 例 。 


v = tf.constant([[1.0, 2.0, 3.0],[4.0,5.0,6.0]]) 


print tf.clip_by_value(v, 2.5, 4.5).eval() 


# 输出 [[ 2.5 2.5 3.][ 4. 4.5 4.5]] 


在 上 面 的 样 例 中 可 以 看 到 ， 小 于 2.5 的 数 都 被 换 成 了 2.5， 而 大 于 4.5 的 数 
都 被 换 成 了 4.5。 这 样 通 过 tft.clijp_by_value 函 数 就 可 以 保证 在 进行 log 运 
算 时 ， 不 会 出 现 1og 0 这 样 的 错误 或 者 大 于 1 的 概率 。 第 二 个 运算 是 tf.log 
函数 ， 这 个 函数 完成 了 对 张 量 中 所 有 元 系 依 次 求 对 数 的 功能 。 以 下 代 
码 中 给 出 一 个 简单 的 样 例 。 


v = tf.constant([1.0, 2.0, 3.0]) 
print tf.log(v).eval() 


# 输出 [ ©.  ©.69314718 1.09861231] 


Ba MAR ERE, ELIXARA R ERK RE a eR 
ER o IX SERIE A ee FEE ARTA , MERAH HARR o ERIA 
需要 使 用 tf.matmul 芳 数 来 完成 。 下 面 给 出 了 这 两 个 操作 的 区 别 : 


v1 = tf.constant([[1.0, 2.0], [3.0, 4.0]]) 


v2 = tf.constant([[5.0, 6.0], [7.0, 8.0]]) 


print (vi * v2).eval() 
2 Ss Carl | 2 S2] 


print tf.matmul(vi, v2).eval() 


# 输出 [[ 19. 22.] [ 43. 50.]] 


ao 的 结果 是 每 个 位 置 上 对 应 元 素 的 乘积 。 比 如 (1,1) 这 个 元 素 的 
KE: 


vlll,1]xv2[L,1]=1x5=5 
(1,2) 这 个 元 素 的 值 是 : 
vf. 2] x v2[1. 2] = 2x6 =12 


以 此 类 推 。 而 tf.matmul 函 数 完成 的 是 矩阵 乘法 运算 ， 所 以 (1,1) 这 个 
元 素 的 值 走 : 


vx VAL VL 2]xv2f2,1] =1x5+42%7 =19 


通过 上 面 这 三 个 运算 完成 了 对 于 每 一 个 样 例 中 的 每 一 人 


p(x)7 OS G(X) ts 这 三 步 计算 得 到 的 结果 是 一 


nxm Hy Zee, En A—Sbatch PENRE, mA one 
E o ASHES CANS, DO BEAT Fm PRR E AT Ed 
ZXR, SAR Fn tT BE LY 4 Bll — batch ay FIER e (IAA 
类 问题 的 类 别 数量 是 不 变 的 ， 所 以 可 以 直接 对 整个 矩阵 做 平均 而 并 不 
改变 计算 结果 的 意义 。 这 样 的 方式 可 以 使 整个 程序 更 加 人 简洁。 以 下 代 
码 简 单 展 示 了 tf.reduce_mean 范 数 的 使 用 方法 。 


v = tf.constant([[1.0, 2.0, 3.0],[4.0,5.0,6.0]]) 


print tf.reduce_mean(v).eval() 
# 输出 3.5 


Ye SM — RE F softmax [EI YV4—j#E HE AY, Pr LA TensorFlow xt ix PN A 
DREFI I Zt — Be, FF GEER T tf.nn.softmax_cross_entropy_with_logits 
函数 。 比 如 可 以 直接 通过 下 面 的 代码 来 实现 使 用 了 softmax 回 归 之 后 的 
BC MPF EBL: 


cross_entropy = tf.nn.softmax_cross_entropy_with_logits(y, y 


i) 


其 中 y 代 表 了 原始 神经 网 络 的 输出 结果 ， 而 y_ 给 出 了 标准 答案 。 这 样 通 
过 一 个 命令 就 可 以 得 到 使 用 了 Softmax 回 归 之 后 的 交叉 们 。 在 只 有 一 个 
正确 答案 的 分 类 问题 中 ， TensorFlow 提供 了 
tf.nn.sparse_softmax_cross_entropy_with_logits 芳 数 来 进一步 加 速 计算 过 
程 。 在 第 5 章 中 将 提供 使 用 这 个 函数 的 完整 样 例 。 

与 分 类 问题 不 同 ， 回 归 问 题解 决 的 是 对 具体 数值 的 预测 。 比 如 房价 预 
测 、 销 量 预 测 等 都 是 回归 问题 。 这 些 问题 需要 预测 的 不 是 一 个 事先 定 
义 好 的 类 别 ， 而 是 一 个 任意 实数 。 解 决 回归 问题 的 神经 网 络 一 般 只 有 
一 个 输出 节操 ， 这 个 节点 的 输出 值 就 是 预测 值 。 对 于 回归 问题 ， 最 常 
用 的 损失 函数 是 均 方 误差 (MSE, mean squared error) ° CAJE XUN 
下 : 


o y ( ， t) 
e e A Ti 
MSE(y,y') = 
SE(y,y ) 
其 中 y ,为 一 个 batch 中 第 个 数据 的 正确 答案 ， 而 Yi 为 神经 网 络 给 出 的 
预测 值 。 以 下 代码 展示 了 如 何 通过 TensorFlow 实 钢 均 方 误差 损失 而 数 ; 


mse = tf.reduce_mean(tf.square(y_ - y)) 


其 中 y 代 表 了 神经 网 络 的 输出 答案 ，y_ 代 表 了 标准 答案 。 类 似 4.2.1 小 市 
中 介绍 的 乘法 操作 ， 这 里 的 减法 运算 “- "也 是 两 个 窍 阵 中 对 应 元 系 的 减 


法 。 


4.2.2 Ase CRABB 


TensorFlow 不 仅 文 持 经 典 的 损失 函数 ， 还 可 以 优化 任意 的 目 定 义 损失 画 
数 。 本 小 下 将 介绍 如 何 通过 目 定 义 损 失 画 数 的 方法 ， 使 得 神经 网 络 优 
。 在 下 面 的 篇 幅 中 将 以 预测 商品 销 
量 问题 为 例 。 


在 预测 商品 销量 时 ， 如 果 预 测 多 了 (预测 值 比 真实 销量 大 ) ， 商 家 损 
失 的 是 生产 商品 的 成 本 ， 而 如 有 果 预 测 少 了 (预测 值 比 真 实 销量 小 ) ， 

损失 的 则 是 商品 的 利润 。 因 为 一 般 商品 的 成 本 和 商品 的 利润 不 会 严格 
相等 ， 所 以 使 用 4.2.1 小 太 中 介绍 的 均 方 误差 损 失 画 数 束 不 能 够 很 好 地 
最 大 化 销售 利润 。 比 如 如 来 一 个 商品 的 成 本 是 1 元 ， 但 是 利润 是 10 元 ， 

那么 少 预测 一 个 整 少 择 10 元 ， 而 多 预测 一 个 才 少 择 1 元 。 如 琳 神 经 网 络 
模型 最 小 化 的 是 均 方 误 老 ， 那 么 很 有 可 能 此 模型 惑 无 法 最 大 化 预期 的 
利润 。 为 了 最 大 化 预期 利润 ， 需 要 将 损失 函数 和 利润 直接 联系 起 来 。 
注意 损失 函数 定义 的 是 损失 ， 所 以 要 将 利润 最 大 化 ， 定 义 的 损失 画 数 
应 该 刻画 成 本 或 者 代价 。 下 面 的 公式 给 出 了 一 个 当 预 测 多 于 真实 值 和 
预测 少 于 真实 值 时 有 不 同 损失 系数 的 损失 函数 : 


op) x>y 


Loss(V.y )= viv), EPa > 7 
(y.y) Lit yi) f(y) Hy) a 


a. 
和 均 方 误差 公式 类 似 ，yi 为 一 个 batch 中 第 i 个 数据 的 正确 答案 ， y; 为 
神经 网 络 得 到 的 预测 值 ，a 和 b 是 常量 。 比 如 在 上 面 介绍 的 销量 预测 问 


y 


Ar, awT 《正确 答案 多 于 预测 答案 的 代价 ) ， 而 b 等 于 1 CE 
确 答案 少 于 预测 答案 的 代价 ) 。 通 过 对 这 个 自 定 义 损失 函数 的 优化 ， 
模型 提供 的 预测 值 更 有 可 能 最 大 化 收益 。 在 TensorFlow 中 ， 可 以 通过 以 
下 代码 来 实现 这 个 损失 函数 。 


loss = tf.reduce sum(tf.select(tf.greater(vi, v2), 


(vi - v2) * a, (v2 - vi 
) ”by)) 


上 面 的 代码 用 到 了 tf.greater 和 tf.select 来 实现 选择 操作 。tf.greater 的 输入 
是 两 个 张 量 ， 此 函数 会 比较 这 两 个 输入 张 量 中 每 一 个 元 素 的 大 小 ， 并 
返回 比较 结果 。 当 tf.greater 的 输入 张 量 维度 不 一 样 时 ，TensorFlow 会 进 
行 类 似 NumPy 广 播 操 作 (broadcasting) 的 处 理 旦 。tt.select 函 数 有 三 个 
参数 。 第 一 个 为 选择 条 件 根据 ， 当 选择 条 件 为 True 时 ，tf.select 函 数 会 
选择 第 二 个 参数 中 的 值 ， 否 则 使 用 第 三 个 参数 中 的 值 。 注 意 tt.select 画 
数 判 断 和 选择 都 是 在 元 素 级 别 进行 ， 以 下 代码 展示 了 tf.select 范 数 和 
tf.greater 函 数 的 用 法 © 


import tensorflow as tf 
v1 = tf.constant([1.0, 2.0, 3.0, 4.0]) 


v2 = tf.constant([4.0, 3.0, 2.0, 1.0]) 


sess = tf.InteractiveSession() 


print tf.greater(v1, v2).eval() 


# 输出 [False False True True] 


print tf.select(tf.greater(v1, v2), vi, v2).eval() 


# 输出 [4. 3. 3. 4.] 


sess.close() 


在 定义 了 损失 函数 之 后 ， 下 面 将 通过 一 个 简单 的 神经 网 络 程序 来 讲解 
损失 函数 对 模型 训练 结果 的 影响 。 在 下 面 这 个 程序 中 ， 实 现 了 一 个 拥 
有 两 个 输入 市 点 、 一 个 输出 入 点 ， 没 有 隐藏 层 的 神经 网 络 。 这 个 程序 
的 主体 流程 和 3.4.5 小 下 中 给 出 来 的 样 例 基 本 一 致 ， 但 用 到 了 上 面 定 义 
的 损失 范 数 。 


import tensorflow as tf 


from numpy.random import RandomState 


batch size = 8 


# 两 个 输入 节点 。 


x = tf.placeholder(tf.float32, shape=(None, 2), name='x- 
input' ) 


# 回归 问题 一 般 只 有 一 个 输出 节点 。 


y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y- 
input ' ) 


为 了 


# 定义 了 一 个 单 层 的 神经 网 络 前 向 传播 的 过 程 ， 这 里 就 是 简单 加 权 和 。 


wi = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1) ) 


y = tf.matmul(x, wi) 


# 定义 预测 多 了 和 预测 少 了 的 成 本 。 


loss_less = 10 


Il 
m 


loss_more 
loss = tf.reduce_sum(tf.select(tf.greater(y, y_), 
(y - y_) * loss_more, 
(y_ - y) * loss_less)) 


train_step = tf.train.AdamOptimizer(0.001).minimize(loss) 


# 通过 随机 数 生 成 一 个 模拟 数据 集 。 
rdm = RandomState(1) 
dataset_size = 128 

X = rdm.rand(dataset_size, 2) 


# 设置 回归 的 正确 值 为 两 个 输入 的 和 加 上 一 个 随机 量 。 之 所 以 要 加 上 一 个 随机 量 是 


# 加 入 不 可 预测 的 噪音 ， 否 则 不 同 损失 画 数 的 意义 束 不 大 了 ， 因 为 不 同 损失 函数 都 
会 在 能 


# 完全 预测 正确 的 时 候 最 低 。 一 般 来 说 噪音 为 一 个 均值 为 9 的 小 量 ， 所 以 这 里 的 品 
音 设 置 为 


# -0.05 ~ 0.05 的 随机 数 。 


Y = [[x1 + x2 + rdm.rand()/10.0-0.05] for (x1, x2) in X] 


# 训练 神经 网 络 。 
with tf.Session() as sess: 
init_op = tf.initialize_all_variables() 
sess.run(init_op) 
STEPS = 5000 
for i in range(STEPS): 
start = (i * batch_size) % dataset_size 
end = min(start+batch_size, dataset_size) 
sess.run(train_step, 


feed_dict= 
{x: X[start:end], y_: Y[start:end]}) 


print sess.run(w1) 


运行 上 面 的 代码 会 得 到 w1 的 值 为 [1.01934695, 1.04280889], t W€ Mi 
得 到 的 预测 函数 是 1.02x ,+1.04x,， 这 要 比 x,+x, 大 ， 因 为 在 损失 函数 中 
指定 预测 少 了 的 损失 更 大 (loss_less>loss_more)。 如果 将 loss_less 的 值 调 
#71, ，loss_more 的 值 调整 为 10， 那 么 w1 的 值 将 会 是 [0.95525807， 
0.9813394]。 也 就 是 说 ， 在 这 样 的 设置 下 ， 模 型 会 更 加 偏向 于 预测 少 一 
点 。 而 如 采 使 用 均 方 误差 作为 损失 函数 ， 那 么 w ,会 是 [0.97437561， 
1.0243336]。 使 用 这 个 损失 函数 会 尽量 让 预测 值 离 标准 答案 更 近 。 通 过 
这 个 样 例 可 以 感受 到 ， 对 于 相同 的 神经 网 络 ， 不 同 的 损失 函数 会 对 训 
练 得 到 的 模型 产生 重要 影响 。 


4.3 ”神经 网 络 优化 算法 


本 节 将 更 加 具体 地 介绍 如 何 通 过 反问 传播 算法 (backpropagation) 和 梯 
度 下 降 算 法 (gradient decent) 调整 神经 网 络 中 参数 的 取 值 。 梯 度 下 降 
算法 主要 用 于 优化 单个 参数 的 取 值 ， 而 反 癌 传播 算法 给 出 了 一 个 高 效 
的 方式 在 所 有 参数 上 使 用 梯度 下 降 算 法 ， 从 而 使 神经 网 络 模 型 在 训练 
数据 上 的 损失 函数 尽 可 能 小 。 反 回 传 播 算法 是 训练 神经 网 络 的 核心 算 
法 ， 它 可 以 根据 定义 好 的 损失 函数 优化 神经 网 络 中 参数 的 取 值 ， 从 而 
使 神经 网 络 模型 在 训练 数据 集 上 的 损失 函数 达到 一 个 较 小 值 。 神 经 网 
络 模型 中 参数 的 优化 过 程 直接 决定 了 模型 的 质量 ， 是 使 用 神经 网 络 时 
非常 重要 的 一 步 。 在 本 市 中 ， 将 主要 介绍 神经 网 络 优化 过 程 的 基本 概 
念 和 主要 思想 ， 而 上 略 去 算法 的 数学 推导 和 证 明 扣 。 本 市 将 给 出 一 个 具体 
的 样 例 来 解释 使 用 梯度 下 降 算 法 优化 参数 取 值 的 过 程 。 在 下 面 的 4.4 市 
中 ， 将 继续 介绍 的 神经 网 络 优化 过 程 中 可 能 过 到 的 问题 和 解决 方法 ， 
掌握 本 广内 容 可 以 帮助 更 好 地 理解 这 些 优化 方法 。 


假设 用 6 表示 神经 网 络 中 的 参数 ，J(0) 表示 在 给 定 的 参数 取 值 下 ， 训 | 练 

数据 集 上 损失 函数 的 大 小 ， 那 么 整个 优化 过 程 可 以 抽象 为 寻找 一 个 参 

数 9 ， 使 得 J(6) 最 小 。 因 为 目前 没有 一 个 通用 的 方法 可 以 对 任意 损失 画 

数 直 接 求 解 最 佳 的 参数 取 值 ， 所 以 在 实践 中 ， 梯 度 下 降 算 法 是 最 常用 

的 神经 网 络 优化 方法 。 梯 度 下 降 算法 会 迭代 式 更 新 参数 9 ， 不 断 沿 着 梯 

ee ee o 图 4-11 展 示 了 梯度 下 降 
1k à 原理 
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图 4-11 梯度 下 降 算 法 思想 示意 图 


图 4-11 中 x 轴 表 示 参 数 9 的 取 值 ，y 轴 表示 损失 函数 J(0) 的 值 。 图 4-11 的 
曲线 表示 了 在 参数 9 取 不 同 值 时 ， 对 应 损失 函数 J(0) 的 大 小 。 假 设 当 前 
的 参数 和 损失 值 对 应 图 4-11 中 小 圆 点 的 位 置 ， 那 么 梯度 下 降 算法 会 将 参 
数 向 x 轴 左 侧 移动 ， 从 而 使 得 小 圆 点 朝 着 箭头 的 方 癌 移动 。 参 数 的 梯度 
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可 以 通过 求 偏 导 的 方式 计算 ， 对 于 参数 9 ， 其 梯度 为 一 (0) 


。 有 了 梯度 ， 还 需要 定义 一 个 学 习 率 丰 站 (leaming rate) 来 定义 每 次 


参数 更 新 的 幅度 。 从 直观 上 理解 ， 可 以 认为 学 习 率 定义 的 就 是 每 次 参 
数 移动 的 幅度 。 通 过 参数 的 梯度 和 学 习 率 ， 参 数 更 新 的 公式 为 : 
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下 面 给 出 了 一 个 具体 的 例子 来 说 明 梯 度 下 降 算法 是 如 何 工 作 的 。 假 设 


要 通过 梯度 下 降 算 法 来 优化 参数 x ， 使 得 损失 函数 1 (x) =x ENE 
小 。 梯 度 下 降 算 法 的 第 一 步 需 要 随机 产生 一 个 参数 x 的 初始 值 ， 然 后 再 


通过 梯度 和 学 习 率 来 更 新 参数 x 的 取 值 。 在 这 个 样 例 中 ， 参 数 x 的 梯度 


为 W 二 一 一 二 xX， 那么 使 用 梯度 下 降 算法 每 次 对 参数 x 

Ox | 
HERARHN,yoXn 一 nV 。 假设 参数 的 初始 值 为 
5， 学 习 率 为 03， 那 么 这 个 优化 过 程 可 以 总 结 为 表 4-1。 


2 
表 4.1 使 用 梯度 下 降 算法 优化 画 数 .了 (x) = 


FEZN 当前 轮 参 数 梯度 x 学 习 率 更 新 后 参数 值 
值 

1 5 2x5x0.3=3 5-3=2 

2 2 2x2x0.3=1.2 2-1.2=0.8 

3 0.8 2x0.8x0.3=0.48 0.8-0.48=0.32 

4 0.32 2x0.32x0.3=0.192 0.32- 

0.192=0.128 
5 0.128 2x0.128x0.3=0.0768 0.128- 


0.0768=0.0512 


从 表 4-1 中 可 以 看 出 ， 经 过 5 次 迭代 之 后 ， 参 数 x 的 值 变 成 了 0.0512， 这 
个 和 参数 最 优 值 0 已 经 比较 接近 了 。 虽 然 这 里 给 出 的 是 一 个 非常 简单 的 
样 例 ， 但 是 神经 网 络 的 优化 过 程 也 是 可 以 类 推 的 。 神 经 网 络 的 优化 过 
程 可 以 分 为 两 个 阶段 ， 第 一 个 阶段 和 完 通 过 前 向 传播 算法 计算 得 到 预测 
值 ， 并 将 预测 值 和 真实 值 做 对 比 得 出 两 者 之 间 的 差距 。 然 后 在 第 二 个 
阶段 通过 反 向 传播 算法 计算 损失 函数 对 每 一 个 参数 的 梯度 ， 再 根据 梯 
度 和 学 习 率 使 用 梯度 下 降 算 法 更 新 每 一 个 参数 。 本 书 将 略 去 反 向 传播 
算法 具体 的 实现 方法 和 数学 证 明 ， 有 兴趣 的 读者 可 以 参考 David 
Rumelhart ` Geoffrey Hinton 和 Ronald Williams 教 授 发 表 的 论文 Learning 
representations by back-propagating errors ®- ° 


需要 注意 的 是 ， 梯 度 下 降 算 法 并 不 能 保证 被 优化 的 函数 达到 全 局 最 优 
解 。 如 岁 4-12 所 示 ， 图 中 给 出 的 画 效 加 有 可 能 只 能 得 到 局 部 最 优 解 而 不 
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进一步 更 新。 在 这 个 样 例 中 ， 如 时 参 数 x 的 初始 值 落 在 右 侧 深 色 的 区 间 
中 ， 那 么 通过 梯度 下 降 得 到 的 结果 都 会 落 到 小 黑 点 代表 的 局 部 最 优 
解 。 只 有 当 x 的 初始 值 落 在 左 侧 浅 色 的 区 间 时 梯度 下 降 才 能 给 出 全 局 最 
优 答案 。 由 此 可 见 在 训练 神经 网 络 时 ， 参 数 的 初始 值 会 很 大 程度 影响 
最 后 得 到 的 结果 。 只 有 当 损 失 画 数 为 是 画 数 时 ， 梯 度 下 降 算 法 才能 保 
证 达到 全 局 最 优 解 。 


J(0) 
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图 4-12 ”梯度 下 降 算 法 得 不 到 全 局 最 小 值 的 样 例 


除了 不 一 定 能 达到 全 局 最 优 外 ， 梯 度 下 降 算 法 的 另外 一 个 问题 就 是 计 
算 时 间 大 长 。 因 为 要 在 全 部 训练 数据 上 最 小 化 损失 ， 所 以 损失 函数 J(0) 
是 在 所 有 训练 数据 上 的 损失 和 。 这 样 在 每 一 轮 达 代 中 都 需要 计算 在 全 
部 训练 数据 上 的 损失 函数 。 在 海量 训练 数据 下 ， 要 计算 所 有 训练 数据 
的 损失 函数 是 非常 消耗 时 间 的 。 为 了 加 速 训练 过 程 ， 可 以 使 用 随机 梯 
度 下 降 的 算法 (stochastic gradient descent) 。 这 个 算法 优化 的 不 是 在 全 
部 训练 数据 上 的 损失 画 数 ， 而 是 在 每 一 轮 和 迭 代 中 ， 随 机 优化 某 一 条 训 
练 数据 上 的 损失 函数 。 这 样 每 一 轮 参 数 更 新 的 速度 就 大 大 加 快 了 。 
为 随机 梯度 下 降 算 法 每 次 优化 的 只 是 某 一 条 数据 上 的 损失 函数 ， 所 以 
它 的 问题 也 非常 明显 : 在 某 一 条 数据 上 损失 函数 更 小 并 不 代表 在 全 音 
数据 上 损失 函数 更 小 ， 于 是 使 用 随机 梯度 下 降 优化 得 到 的 神经 网 络 其 
至 可 能 无 法 达到 局 部 最 优 。 
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一 般 采 用 这 两 个 算法 的 折 中 每 次 计算 一 小 部 分 训练 数据 的 损失 函 
数 。 这 一 小 部 分 数据 被 称 之 为 一 个 batch。 通 过 和 矩阵 运算 ， 每 次 在 一 个 
batch 上 优化 神经 网 络 的 参数 并 不 会 比 单个 数据 慢 太 多 。 男 一 方面 ， 
次 使 用 一 个 batch 可 以 大 大 减 小 收敛 所 需要 的 迭代 次 数 ， 同 时 可 以 使 收 
敛 到 的 结果 更 加 接近 梯度 下 降 的 效果 。 以 下 代码 给 出 了 在 TensorFlow 中 
如 何 实现 神 经 网 络 的 训练 过 程 。 在 本 书 的 所 有 样 例 中 ， 神 经 网 络 的 训 
SAK BOSE LL Rute o 


batch_size =n 


# 每 次 读 取 一 小 部 分 数据 作为 当前 的 训练 数据 来 执行 反 向 传播 算法 。 


X = tf.placeholder(tf.float32, shape= 
(batch_size, 2), name='x-input' ) 


y_ = tf.placeholder(tf.float32, shape= 
(batch_size, 1), name='y-input') 


# 定义 神经 网 络 结构 和 优化 算法 。 
loss = ... 


train_step = tf.train.AdamOptimizer(0.001).minimize(loss) 


# 训练 神经 网 络 。 
with tf.Session() as sess: 


# 参数 初始 化 。 


# 迭代 的 更 新 参数 。 


We 


for i in range(STEPS): 


# 准备 batch_size 个 训练 数据 。 一 般 将 所 有 训练 数据 随机 打 乱 之 后 再 


选取 可 以 得 到 


# 更 好 的 优化 效果 。 


current_X, current_Y =.. 


sess.run(train_step, feed_dict= 
{x: current_X, y_: current_Y}) 


4.4 神经 网 络 进一步 优化 


4.3 节 介绍 了 优化 神经 网 络 的 基本 算法 ， 本 节 将 继续 介绍 神经 网 络 优化 
过 程 中 可 能 过 到 的 一 些 问题 ， 以 及 解决 这 些 问题 的 常用 方法 。4.4.1 小 
节 将 介绍 通过 指数 衰减 的 方法 设置 梯度 下 降 算 法 中 的 学 习 率 。 通 过 指 
数 衰减 的 学 习 率 即 可 以 让 模型 在 训练 的 前 期 快速 接近 较 优 解 ， 又 可 以 
保证 模型 在 训练 后 期 不 会 有 太 大 的 波动 ， 从 而 更 加 接近 局 部 最 优 。 然 
后 4.4.2 小 节 将 介绍 过 拟 合 问 题 。 在 训练 复杂 神经 网 络 模型 时 ， 过 拟 合 
是 一 个 非常 常见 的 问题 。 这 一 小 节 将 具体 介绍 这 个 问题 的 影响 以 及 解 
决 这 个 问题 的 主要 方法 。 最 后 4.4.3 小 节 将 介绍 滑动 平均 模型 。 滑 动 平 
均 模 型 会 将 每 一 轮 迭 代 得 到 的 模型 综合 起 来 ， 从 而 使 得 最 终 得 到 的 模 
型 更 加 健壮 (robust) 。 


4.4.1 学习 率 的 设置 


4.3 贡 介绍 了 在 训练 神经 网 络 时 ， 需 要 设置 学 习 率 (learning rate) 控制 
参数 更 新 的 速度 。 本 小 节 将 进一步 介绍 如 何 设置 学 习 率 。 学 习 率 决定 
了 参数 每 次 更 新 的 幅度 。 如 有 果 幅 度 过 大 ， 那 么 可 能 导致 参数 在 极 优 值 


的 两 侧 来 回 移动 。4.3 节 介绍 过 优化 .了 ( y) 一 yi 西数 的 样 例 。 
如 果 在 优化 中 使 用 的 学 习 率 为 1， 那 么 整个 优化 过 程 将 会 如 表 4-2 所 示 。 
表 4-2 ” 当 学 习 率 过 大 时 ， 梯 度 下 降 算法 的 运行 过 程 


轮 数 当前 轮 参数 值 ” 梯度 x 学 习 率 更 新 后 参数 值 
1 5 2x5x1=10 5-10=-5 
-5 2x C5) -5 (-10) =5 
x1=-10 
3 5 2x5x1=10 5-10=-5 


从 上 面 的 样 例 可 以 看 出 ， 无 论 进行 多 少 轮 迭 代 ， 参 数 将 在 5 和 -5 之 间 揪 
摆 ， 而 不 会 收敛 到 一 个 极 小 值 。 相 反 ， 当 学 习 率 过 小 时 ， 虽 然 能 保证 
收敛 性 ， 但 是 这 会 大 大 降低 优化 速度 。 我 们 会 需要 更 多 轮 的 迭代 才能 
达到 一 个 比较 理想 的 优化 效果 。 比 如 当 学 习 率 为 0.001 时 ， 和 迭代 5 次 之 
Ja, x 的 值 将 为 4.95。 要 将 x 训练 到 0.05 需 要 大 约 2300 轮 ， 而 当 学 习 率 为 
0.3 上 时， 只 需要 5 轮 就 可 以 达到 。 综 上 所 述 ， 学 习 率 既 不 能 过 大 ， 也 不 能 
过 小 。 为 了 解决 设 定 学 习 率 的 问题 ，TensorFlow 提 供 了 一 种 更 加 灵活 的 
学 习 率 设置 方法 一 指数 衰减 法 。tf.train.exponential_decay 函 数 实 现 了 
日 数 衰 减 学 习 率 。 通 过 这 个 函数 ， 可 以 先 使 用 较 大 的 学 习 率 来 快速 得 
到 一 个 比较 优 的 解 ， 然 后 随 着 迭代 的 继续 逐步 减 小 学 习 率 ， 使 得 模型 
在 训练 后 期 更 加 稳定 。exponential_decay 落 数 会 指数 级 地 减 小 学 习 率 ， 
它 实现 了 以 下 代码 的 功能 : 


decayed_learning_rate = \ 


learning_rate * decay_rate ^ (global_step / decay_ steps 


其 中 decayed_learning_rate 为 每 一 轮 优化 时 使 用 的 学 习 率 learning rate 
为 事先 设 定 的 初始 学 习 率 ，decay_rate 为 衰减 系数 ，decay_steps 为 衰减 
速度 。 图 4-13 显 示 了 随 着 迭代 轮 数 的 增加 ， 学 习 率 逐步 降低 的 过 程 。 
tf.train.exponential_decay 范 数 可 以 通过 设置 参数 staircase 选 择 不 同 的 衰减 
方式 。staircase 的 默认 值 为 False， 这 时 学 习 率 随 送 代 轮 数 变 化 的 趋势 如 
图 4-13 中 灰色 曲线 所 示 。 当 staircase 的 值 被 设置 为 True 时 ，global_step/ 
decay_steps 会 侦 转化 成 整数 。 这 使 得 学 习 率 成 为 一 个 阶梯 函数 

(staircase function) 。 图 4-13 中 黑色 曲线 显示 了 阶梯 状 的 学 习 率 。 在 这 
样 的 设置 下 ，decay_steps 通 常 代表 了 完整 的 使 用 一 过 训练 数据 所 需要 的 
迭代 轮 数 。 这 个 迭代 轮 数 也 束 是 总 训练 样本 数 除 以 每 一 个 batch 中 的 训 
练 样本 数 。 这 种 设置 的 常用 场景 是 每 完整 地 过 完 一 过 训练 数据 ， 学 习 
紊 束 减 小 一 次 。 这 可 以 使 得 训练 数据 集中 的 所 有 数据 对 模型 训练 有 相 
等 的 作用 。 当 使 用 连续 的 指数 衰减 学 习 率 时 ， 不 同 的 训练 数据 有 不 同 
的 学 习 率 ， 而 当 学 习 率 减 小 时 ， 对 应 的 训练 数据 对 模型 训练 结果 的 有 影 
啊 也 束 小 了 。 下 面 给 出 了 一 段 代 码 来 示范 如 何在 TensorFlow 中 使 用 
tf.train.exponential_decayEHRY ° 


1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 951 


训练 迭代 轮 数 


图 4-13 ”指数 衰减 学 习 率 随 着 迭代 轮 数 的 变化 图 


(图 中 使 用 的 基础 学 习 率 为 0.1， 衰 减 率 为 0.9， 衰 减速 度 为 50) 


global_step = tf.Variable(0) 


# iHiitexponential_decayHAWwt M4 > o 
learning_rate = tf.train.exponential_decay( 


0.1, global_step, 100, 0.96, staircase=True) 


# 使 用 指数 衰减 的 学 习 率 。 在 minimize 画 数 中 传人 global_step 将 自动 更 新 


# global_step 参 数 ， 从 而 使 得 学 习 率 也 得 到 相应 更 新 。 


learning_step = tf.train.GradientDescentOptimizer (learning_r 
ate)\ 


.minimize(...my loss..., global_step=global_step) 


上 面 这 段 代码 中 设 定 了 初始 学 习 率 为 0.1， 因 为 指定 了 staircase=True， 
所 以 每 训练 100 轮 后 学 习 率 乘 以 0.96。 一 般 来 说 初始 学 习 率 、 衰 减 系 数 
和 衰减 速度 都 是 根据 经 验 设置 的 。 而 且 损 失 画 数 下 降 的 速度 和 迁 代 结 
束 之 后 总 损失 的 大 小 没有 必然 的 联系 。 也 就 是 说 并 不 能 通过 前 几 轮 损 
失 画 数 下 降 的 速度 来 比较 不 同 神经 网 络 的 效果 。 


44.2 ”过 拟 合 问题 


上 上 面 的 4.2 和 4.3 广 讲述 了 如 何在 训练 数据 上 优化 一 个 给 定 的 损失 函数 。 
然而 在 真实 的 应 用 中 想 要 的 并 不 是 让 模型 尽量 模拟 训练 数据 的 行为 ， 
而 是 布 望 通过 训练 出 来 的 模型 对 未 知 的 数据 给 出 判断 。 模 型 在 训练 数 
据 上 的 表现 并 不 一 定 代表 了 它 在 未 知 数 据 上 的 表现 。 本 小 市 将 介绍 的 
过 拟 合 问 题 加 是 可 以 导致 这 个 差距 的 一 个 很 重要 因素 。 所 谓 过 拟 合 ， 
指 的 是 当 一 个 模型 过 为 复杂 之 后 ， 它 可 以 很 好 地 “记忆 ”每 一 个 训练 数 
据 中 随机 噪音 的 部 分 而 瑟 记 了 要 去 “学 习 ? 训 练 数 据 中 通用 的 趋势 。 举 
一 个 极端 的 例子 ， 如 采 一 个 模型 中 的 参数 比 训练 数据 的 总 数 还 多 ， 那 
么 只 要 训练 数据 不 冲突 ， 这 个 模型 完全 可 以 记 住 所 有 训练 数据 的 结 


从 而 使 得 损失 函数 为 0。 可 以 直观 地 想象 一 个 包含 n 个 变量 和 个 等 式 
的 方程 组 ， 当 方程 不 神 突 时 ， 这 个 方程 组 是 可 以 通过 数学 的 方法 来 求 
解 的 。 然 而 ， 过 度 拟 合 训 练 数据 中 的 随机 噪音 虽然 可 以 得 到 非常 小 的 
损失 函数 ， 但 生 对 于 未 知 数据 可 能 无 法 做 出 可 靠 的 判断 。 


图 4-14 显 示 了 模型 训练 的 三 种 不 同情 况 。 在 第 一 种 情况 下 ， 由 于 模型 过 
于 简单 ， 无 法 刻画 问题 的 趋势 。 第 二 个 模型 是 比较 合理 的 ， 它 既 不 会 
过 于 关注 训练 数据 中 的 噪音 ， 又 能 够 比较 好 地 刻画 问题 的 整体 趋势 。 
第 三 个 模型 就 是 过 拟 合 了 ， 虽 然 第 三 个 模型 完美 地 划分 了 不 同形 状 的 
点 ， 但 是 这 样 的 划分 并 不 能 很 好 地 对 未 知 数据 做 出 判断 ， 因 为 它 过 度 
拟 合 了 训练 数据 中 的 噪音 而 忽视 了 问题 的 整体 规律 。 比 如 图 中 浅 色 方 
E 可 能 和 “X” 属 于 同一 类 ， 而 不 十 根据 图 上 的 划分 和 “0O” 属 于 同 


图 4-14 ”神经 网 络 模 型 训练 的 三 种 情况 


为 了 避免 过 拟 合 问题 ， 一 个 非 第 第 用 的 方法 古 正 则 化 
(regularization) 。 正 则 化 的 思想 就 是 在 损失 函数 中 加 入 刻画 模型 复 灯 
程度 的 指标 。 假 设 用 于 刻画 模型 在 训练 数据 上 表现 的 损失 函数 为 J(0) ， 
那么 在 优化 时 不 是 直接 优化 JO), Met 


a: (8) F AR(w) er R(w) 刻画 的 是 模型 的 复 


杂 程 度 ， 而 4 表示 模型 复 洒 损失 在 总 损失 中 的 比例 。 注 意 这 里 9 表示 的 

是 一 个 神经 网 络 中 所 有 的 参数 ， 它 包括 边 上 的 权重 w 和 偏 置 项 b。 一 般 

来 说 模型 复杂 度 只 由 权重 w 决定 。 稼 用 的 刻画 模型 复杂 度 的 函数 R 
(w) 有 两 种 ， 一 种 是 L 1 正则 化 ， 计 算 公式 是 : 


R(w) = |w], = >. wi 


a 


w 


男 一 种 是 L 2 正则 化 ， 计 算 公 式 是 : 


R(w) = |w 


a 
2 =>) 
i 


无 论 是 哪 一 种 正则 化 方式 ， 基 本 的 思想 都 是 希望 通过 限制 权重 的 大 
小 ， 使 得 模型 不 能 任意 拟 合 训练 数 据 中 的 随机 噪音 。 但 这 两 种 正则 化 
的 方法 也 有 很 大 的 区 别 。 首 先 , 工 1 正 则 化 会 让 参数 变 得 更 稀疏 ， 而 工 2 
正则 化 不 会 。 所 谓 参 数 变 得 更 稀疏 是 指 会 有 更 多 的 参数 变 为 0， 这 样 可 
以 达到 类 似 特征 选取 的 功能 。 之 所 以 二 2 正则 化 不 会 让 参数 变 得 稀 玻 的 
原因 是 当 参 数 很 小 时 ， 比 如 0.001， 这 个 参数 的 平方 基本 上 就 可 以 忽略 
了 ， 于 是 模型 不 会 进一步 将 这 个 参数 调整 为 0。 其 次 , 工 1 正 则 化 的 计算 
公式 不 可 导 ， 而 L 2 正则 化 公式 可 导 。 因 为 在 优化 时 需要 计算 损失 函数 
的 偏 导 数 ， 所 以 对 含有 L 2 正则 化 损失 函数 的 优化 要 更 加 简洁。 优化 带 L 
1 正则 化 的 损失 函数 要 更 加 复杂 ， 而 且 优 化 方法 也 有 很 多 种 。 在 实践 
中 ， 也 可 以 将 IL 1 正 则 化 和 LL 2 正则 化 同时 使 用 : 


R(w) = ps Of wi a (l _ awe 


4.2 小 六 提 到 过 TensorFlow 可 以 优化 任意 形式 的 损失 函数 ， 所 以 
TensorFlow 目 然 也 可 以 优化 带 正 则 化 的 损失 函数 。 以 下 代码 给 出 了 一 个 


简单 的 带 工 2 正则 化 的 损失 函数 定义 : 


w= tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1)) 


y = tf.matmul(x, w) 


loss = tf.reduce_mean(tf.square(y_ - y)) + 


tf.contrib.layers.12_regularizer (lambda) (w) 


在 上 面 的 程序 中 ，loss 为 定义 的 损失 函数 ， 它 由 两 个 部 分 组 成 。 第 一 个 
部 分 是 4.2.1 小 让 中 介绍 的 均 方 误 莽 损失 函数 ， 它 刻画 了 模型 在 训练 数 
据 上 的 表现 。 第 二 个 部 分 就 是 正则 化 ， 它 防止 模型 过 度 模 拟 训练 数据 
中 的 随机 噪 首 。lambda 参 数 表 示 了 正则 化 项 的 权重 ,也 就 十 公式 


J (8) me | R(w) 中 的 1 © w 为 需要 计算 正则 化 损失 的 参 
数 。TensorFlow 提 供 了 tf.contrib.layers.12_regularizer 画 数 ， 它 可 以 返回 
一 个 图 数 ， 这 个 函数 可 以 计算 一 个 给 定 参 数 的 L 2 正则 化 项 的 值 。 类 似 
的 ，tf.contrib.layers.11_regularizer 可 以 计算 L 1 正则 化 项 的 值 。 以 下 代码 
给 出 了 使 用 这 两 个 函数 的 样 例 : 


weights = tf.constant([[1.0, -2.0], [-3.0, 4.0]]) 
with tf.Session() as sess: 
# 输出 为 (|1|+|-2|+|-3|+|4|)x90.5=5。 其 中 0 .5 为 正则 化 项 的 权重 。 


print sess.run(tf.contrib.layers.11_regularizer(.5) 
(weights) ) 


# 输出 为 (12+(-2)2+(-3)2+42)/2x0.5=7.5。 


print sess.run(tf.contrib.layers.12_regularizer(.5) 
(weights) ) 


在 简单 的 神经 网 络 中 ， 这 样 的 方式 就 可 以 很 好 地 计算 带 正 则 化 的 损失 
函数 了 。 但 当 神 经 网 络 的 参数 增多 之 后 ， 这 样 的 方式 首先 可 能 导致 损 
失 画 数 loss 的 定义 很 长 ， 可 读 性 差 晶 容易 出 错 。 但 更 主要 的 是 ， 当 网 络 
结构 复杂 之 后 定义 网 络 结构 的 部 分 和 计算 损失 函数 的 部 分 可 能 不 在 同 
一 个 函数 中 ， 这 样 通过 变量 这 种 方式 计算 损失 函数 就 不 方便 了 。 为 了 
解决 这 个 问题 ， 可 以 使 用 TensorFlow 中 提供 的 集合 (collection) 。 集 合 
的 概念 在 3.1 节 中 介绍 过 ， 它 可 以 在 一 个 计算 图 (tf.Graph) 中 保存 一 组 
实体 (比如 张 量 ) 。 以 下 代码 给 出 了 通过 集合 计算 一 个 5 层 神经 网 络 带 
工 2 正 则 化 的 损失 函数 的 计算 方法 。 


import tensorflow as tf 


# 获取 一 层 神经 网 络 边 上 的 权重 ， 并 将 这 个 权重 的 L2 正 则 化 损失 加 入 名 称 
为 'l0sses' 的 集合 


def get_weight(shape, lambda): 


# 生成 一 个 变量 。 


var = tf.Variable(tf.random_normal(shape), dtype = tf. 
float32) 


# add_to_collection 函 数 将 这 个 新 生成 变量 的 L2 正 则 化 损失 项 加 入 集 


n} 


# 这 个 函数 的 第 一 个 参数 '1osses ' 是 集合 的 名 字 ， 第 二 个 参数 是 要 加 入 
这 个 集合 的 内 容 。 


tf.add_to_collection( 


‘losses', tf.contrib.layers.12_regularizer (lambda) 


(var) ) 


# 返回 生成 的 变量 。 


return Var 


x = tf.placeholder(tf.float32, shape=(None, 2)) 
y_ = tf.placeholder(tf.float32, shape=(None, 1)) 


batch_size = 8 


# 定义 了 每 二 层 网 络 中 节 可 的 个 数 。 


layer_dimension = [2, 10, 10, 10, 1] 


# 神经 网 络 的 层 数 。 


n_layers = len(layer_dimension) 


# 这 个 变量 维护 前 向 传播 时 最 深层 的 节点 ， 开 始 的 时 候 就 是 输入 层 。 
cur_layer = x 

# 当前 层 的 节点 个 数 。 

in_dimension = layer_dimension[0] 

# 通过 一 个 循环 来 生成 5 层 全 连接 的 神经 网 络 结构 。 

for i in range(1, n_layers): 


# layer_dimension[i] 为 下 一 层 的 节点 个 数 。 


out_dimension = layer_dimension[i] 


# 生成 当前 层 中 权重 的 变量 ， 并 将 这 个 变量 的 L2 正 则 化 损失 加 入 计算 图 上 


weight = get_weight([in_dimension, out_dimension], 0.0 
01) 


bias = tf.Variable(tf.constant(0.1, shape= 
[out_dimension] ) ) 


# 使 用 ReLU 激 活 函 数 。 


cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias 


) 
入 下 一 层 之 前 将 下 一 层 的 节点 个 数 更 新 为 当前 层 节 点 个 数 。 
in_dimension = layer_dimension[i] 
# 在 定义 神经 网 络 前 向 传播 的 同时 已 经 将 所 有 的 L2 正 则 化 损失 加 入 了 图 上 的 集 
AS 


# 这 里 只 需要 计算 刻画 模型 在 训练 数据 上 表现 的 损失 函数 。 


mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer)) 


# 将 均 方 误差 损失 函数 加 入 损失 集合 。 


tf.add_to_collection('losses', mse_loss) 


# get_collection 返 回 一 个 列表 ， 这 个 列表 是 所 有 这 个 集合 中 的 元 素 。 在 这 个 
样 例 中 ， 


# 这 些 元 素 就 是 损失 函数 的 不 同 部 分 ， 将 它们 加 起 来 就 可 以 得 到 最 终 的 损失 函数 。 


loss = tf.add_n(tf.get_collection('losses')) 


从 上 面 的 代码 可 以 看 出 通过 使 用 集合 的 方法 在 网 络 结构 比较 复杂 的 情 
况 下 可 以 使 代码 的 可 读 性 更 高 。 上 面 的 代码 给 出 的 是 一 个 只 有 5 层 的 全 
连接 网 络 ， 在 更 加 复杂 的 网 络 结构 中 ， 使 用 这 样 的 方式 来 计算 损失 画 
数 将 大 大 增强 代码 的 可 读 性 。 


44.3 ”滑动 平均 模型 


这 一 个 小 节 将 介绍 男 外 一 个 可 以 使 模型 在 测试 数据 上 更 健壮 (robust) 
的 方法 一 一 滑动 平均 模型 。 在 采用 随机 梯度 下 降 算 法 训练 神经 网 络 
时 ， 使 用 滑动 平均 模型 在 很 多 应 用 中 都 可 以 在 一 定 程 度 提 高 最 终 模 型 
在 测试 数据 上 的 表现 。 


在 TensorFlow 中 提供 了 tttrain.ExponentialMovingAverage 来 实现 请 动 平 
均 模 型 。 在 初始 化 ExponentialMovingAverage 时 ， 需 要 提供 一 个 衰减 率 

(decay) 。 这 个 衰减 率 将 用 于 控制 模型 更 新 的 速度 。 
ExponentialMovingAverage 对 每 一 个 变量 会 维护 一 个 影子 变量 (shadow 
variable) ， 这 个 影子 变量 的 初始 值 就 是 相应 变量 的 初始 值 ， 而 每 次 运 
行 变 量 更 新 时 ， 影 子 变 量 的 值 会 更 新 为 ; 


shadow variable = decay shadow vartable + (I~ decay) variable 


El shadow_variable HT ZE, variable (EMAL Ss, decay HA 
减 率 。 从 公式 中 可 以 看 到 ，decay 决 定 了 模型 更 新 的 速度 ，decay 越 大 模 
型 越 趋 于 稳定 。 在 实际 应 用 中 ，decay 一 般 会 设 成 非常 接近 1 的 数 (比如 
0.999 或 0.9999) 。 为 了 使 得 模型 在 训练 前 期 可 以 更 新 得 更 快 ， 


ExponentialMovingAverage 还 提供 了 num_updates 参 数 来 动态 设置 decay 
的 大 小 。 如 A T£ ExponentialMoving Average ti] 始 化 时 提供 了 num_updates 
参数 ， 那 么 每 次 使 用 的 衰减 率 将 是 : 


l+num updates 


min 5 decay, 一 一 一 一 一 一 
10+num_ updates 


下 面 通过 一 段 代 码 来 解释 ExponentialMovingAverage 是 如 何 被 使 用 的 。 


import tensorflow as tf 


# 定义 一 个 变量 用 于 计算 滑动 平均 ， 这 个 变量 的 初始 值 为 9。 注 意 这 里 手动 指定 了 


量 的 


KG 


# 类 型 为 tf .float32， 因 为 所 有 需要 计算 滑动 平均 的 变量 必须 是 实数 型 。 


vi = tf.Variable(0, dtype=tf.float32) 
# 这 里 step 变 量 模拟 神经 网 络 中 迭代 的 轮 数 ， 可 以 用 于 动态 控制 衰减 率 。 


step = tf.Variable(0, trainable=False) 


# 定义 一 个 滑动 平均 的 类 (class )。 初 始 化 时 给 定 了 衰减 率 (9. 99 ) 和 控制 衰减 率 


的 变量 step 。 
ema = tf.train.ExponentialMovingAverage(0.99, step) 


# 定义 一 个 更 新 变量 滑动 平均 的 操作 。 这 里 需要 给 定 一 个 列表 ， 每 次 执行 这 个 操作 
时 


这 个 列表 中 的 变量 都 会 被 更 新 。 


maintain_averages_op = ema.apply([v1]) 


with tf.Session() as sess: 
# 初始 化 所 有 变量 。 


init op = tf.initialize all variables() 


sess.run(init_op) 


# 通过 ema.average(v1) 获 取 滑 动 平均 之 后 变量 的 取 值 。 在 初始 化 之 后 变 
量 v1 的 值 和 v1 的 


# 消 动 平 均 都 为 0。 


print sess.run([vi, ema.average(v1)]) # 输出 
[0.0, 0.0] 


# 更 新 变量 v1 的 值 到 5。 
sess.run(tf.assign(vi, 5)) 


# € Ji vi A i oF fh oc Rh 4 ON min{o.99, 
(1+step)/(10+step)= 0.1}=0.1, 


# 所 以 v1 的 滑动 平均 会 被 更 新 为 0 .1x0+0.,9x5=4.5。 


sess.run(maintain_averages_op) 


print sess.run([v1, ema.average(v1)]) # 输出 
[5.0, 4.5] 


# 更 新 Step 的 值 为 10000 » 
sess.run(tf.assign(step, 10000) ) 
# 更 新 v1 的 值 为 10。 
sess.run(tf.assign(vi, 10)) 


# 更 新 v1 的 滑动 平均 值 。 豪 减 率 为 min{0.99,， 
(i+step)/(10+step) 0.999}=0.99, 


# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.99x4.5+0.01x10=4.555。 
sess.run(maintain_averages_op) 


print sess.run([v1i, ema.average(v1) ] ) 


# 输出 [10.0，4.5549998] 


= 


# 再 次 更 新 滑动 平均 值 ， 得 到 的 新 滑动 平均 值 为 
0.99x4,555+0.01x10=4.60945 ° 


sess.run(maintain_averages_op) 


print sess.run([v1i, ema.average(v1) ] ) 


# 输出 [10.0，4.6094499] 


S 


上 面 的 代码 给 出 了 ExponentialMovingAverage 的 简单 样 例 ， 在 第 5 章 中 将 
给 出 在 真实 应 用 中 使 用 消 动 平均 的 样 例 。 


小 结 


本 章 详细 讲解 了 使 用 神经 网 络 解决 实际 问题 过 程 中 的 各 个 环节 。 首 移 
4.1 世 介绍 了 设计 神经 网 络 结构 时 的 两 个 总 体 原 则 一 一 非 线性 结构 和 多 
层 结构 。 这 一 太 先 说 明了 深度 学 习 基 本 上 就 是 深层 神经 网 络 的 代 名 
词 。 然 后 通过 对 深度 学 习 定 义 中 两 个 性 质 的 详细 讲解 ， 指 出 了 非 线性 
结构 和 多 层 结构 是 解 决 复杂 问题 的 必要 方法 。 这 一 斑 通过 具体 的 例子 
讲解 了 线性 模型 和 浅 层 模型 的 局 限 性 。 


然后 4.2 玉 介绍 了 如 何 设计 损失 男 数 。 神 经 网 络 是 一 个 优化 问题 ， 而 损 
失 函 数 就 刻画 了 神经 网 络 需要 优化 的 目标 。 这 一 讲解 了 分 类 问题 和 
回归 问题 中 比较 第 用 的 损失 函数 ， 同 时 也 介绍 了 如 何 设计 更 加 贴近 实 
际 问 题 需求 的 损失 函数 。 在 这 一 节 中 通过 一 个 实际 样 例 讲 解 了 不 同 损 
失 函 数 对 神经 网 络 参数 优化 结果 的 影响 。 


接着 4.3 节 介绍 了 优化 神经 网 络 时 最 常用 的 梯度 下 降 算 法 和 反问 传播 算 
法 。 在 这 一 节 中 ， 主 要 讲解 了 梯度 下 降 算 法 的 基本 概念 和 主体 思想 ， 
并 给 出 了 通过 梯度 下 降 算法 优化 一 个 简单 画 数 J (x) =x 的 样 例 。 通 过 
这 个 例子 ， 读 者 可 以 对 神经 网 络 的 优化 过 程 有 一 个 大 概 的 、 直 观 的 了 
解 。 这 一 节 还 介绍 了 随机 梯度 下 降 和 使 用 batch 的 随机 梯度 下 降 算法 ， 
并 给 出 了 使 用 TensorFlow 优 化 神经 网 络 的 计算 框架 。 


最 后 4.4 休 介绍 了 三 个 伸 经 网 络 优化 过 程 中 可 能 会 遇 到 的 问题 ， 并 介绍 
了 解决 这 些 问 题 的 常用 方法 。 首 先 4.4.1 小 市 介绍 了 通过 指数 豆 减 的 方 
式 来 设置 学 习 率 。 通 过 这 种 方法 ， 既 可 以 加 快 训练 初期 的 训练 速度 ， 
同时 在 训练 后 期 又 不 会 出 现 损 失 函 数 在 极 小 值 周 玮 徘徊 往返 的 情况 。 
然后 4.4.2 小 万 介绍 了 通过 正则 化 解决 过 度 拟 合 的 问题 。 当 损失 画 数 仅 
取决 于 在 训练 数据 上 的 拟 合 程度 时 ， 神 经 网 络 模型 有 可 能 只 是 “ 记 
忆 ? 了 所 有 的 训练 数据 ， 而 无 法 很 好 地 对 未 知 数据 做 出 判断 。 正 则 化 通 
过 在 损失 函数 中 加 入 对 模型 复杂 程度 的 因素 ， 可 以 有 效 避 免 过 拟 合 问 
题 。 最 后 4.4.3 小 世 介 绍 了 使 用 滑动 平均 模型 让 最 后 得 到 的 模型 在 未 知 
数据 上 更 加 健壮 。 


这 一 章 讲解 了 使 用 神经 网 络 模型 时 需要 考虑 的 主要 问题 。 从 神经 网 络 
模型 结构 的 设计 、 损 失 函 数 的 设计 、 神 经 网 络 的 优化 和 神经 网 络 进 一 
步调 优 四 个 方面 履 震 了 设计 和 优化 神经 网 络 过 程 中 可 能 迪 到 的 主要 问 
题 。 在 下 面 的 第 5 章 中 ， 将 通过 一 个 具体 的 问题 来 验证 本 章 中 提 到 的 神 


经 网 络 优化 方法 。 同 时 也 将 给 过 TensorFlow 实 现 神经 网 络 的 最 佳 实 
践 样 例 程序 。 


(1) 具体 定义 可 以 参考 维基 百科 : https://en.wikipedia.org/wiki/Deep_learning ° 


(2)_4.1.2 小 市 将 详细 介绍 激活 函数 。 


(3)_ 参见 : Minsky, M.; S. Papert. Perceptrons: An Introduction to Computational Geometry [J]. 
MIT Press,1969, ISBN 0-262-63022-2. 


(4) 均 方 误差 也 是 分 类 问题 中 常用 的 一 种 损失 函数 。 


有 关于 广播 操作 


(5)_ http://docs.scipy.org/doc/numpy/user/basics.broadcasting html 
(broadcasting) 的 具体 讲解 。 


(6). 更 多 关于 反 回 传播 算法 的 细节 可 以 参见 : Rumelhart D E, Hinton G E, Williams R J. Learning 
representations by back-propagating errors [M]Neurocomputing: foundations of research. MIT Press, 
1986. ° 


D. 学 习 率 的 设置 将 在 4.4.1 小 节 中 详细 介绍 


(8) Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors 
[M]. Neurocomputing: foundations of research. MIT Press, 1986. 


第 5 章 “MNIST 数 字 识 别 问题 


第 4 章 介绍 了 训练 神经 网 络 模型 时 需要 考虑 的 主要 问题 以 及 解决 这 些 问 
题 的 常用 方法 。 这 一 章 将 通过 一 个 实际 问题 来 验证 第 4 章 中 介绍 的 解决 
方法 。 本 舍 将 使 用 的 数据 集 是 MNIST 手 写 体 数字 识别 数据 集 、 。 在 很 多 
深度 学 习 教 程 中 ， 这 个 数据 集 都 会 被 当 作 第 一 个 案例 。 在 验证 神经 网 
a 化 方法 的 同时 ， 本 章 也 会 介绍 使 用 TensorFlow 训 练 神经 网 络 的 最 佳 
实践 


首先 在 5.1 广 中 将 介绍 MNIST 手 写 体 数字 识别 数据 集 ， 并 且 给 出 
TensorFlow 程 序 处 理 MNIST 数 据 吕 。 然 后 5. 2 节 将 对 比 第 4 章 中 提 到 的 神 
经 网 络 结构 设计 和 参数 优化 的 不 同方 法 ， 从 实际 的 问题 中 验证 不 同 优 


化 方法 带 来 的 性 能 提升 。 接 着 在 5.3 和 5.4 两 节 中 将 指出 5.2 市 中 
TensorFlow 程 序 实现 神经 网 络 的 不 足 之 处 ， 并 介绍 TensorFlow 的 最 佳 实 
践 来 解决 这 些 不 足 。 其 中 ，5.3 世 将 介绍 TensorFlow 变 量 重 用 的 问题 和 
变量 的 命名 空间 ; 5.4 世 将 介绍 如 何 将 一 个 神经 网 络 模型 持久 化 ， 使 得 
之 后 可 以 直接 使 用 训练 好 的 模型 。 最 后 在 5.5 节 中 将 整合 5.3 和 5.4 世 中 介 
绍 的 TensorFlow 最 佳 实践 ， 通 过 一 个 完整 的 TensorFlow 程 序 解决 MNIST 
问题 。 


5.1  MNISI 数 据 处 理 


MNIST 是 一 个 非常 有 名 的 手写 体 数 字 识 别 数据 集 ， 在 很 多 资料 中 ， 这 
个 数据 集 都 会 被 用 作 深 度 学 习 的 入 门 样 例 。 本 节 中 将 大 致 讲解 这 个 数 
据 集 的 基本 情况 ， 并 介绍 TensorFlow 对 MNIST 数 据 集 做 的 封装 。 
TensorFlow 的 封装 让 使 用 MNIST 数 据 集 变 得 更 加 方便 。MNIST 数 据 集 
是 NIST 数 据 集 的 一 个 子 集 ， 它 包含 了 60000 张 图 片 作为 训练 数据 ， 
10000 张 图 片 作为 测 斌 数据。 在 MNIST 数 据 集中 的 每 一 张 图 片 都 代表 了 
0~9 中 的 一 个 数字 。 图 片 的 大 小 都 为 28x28， 且 数字 都 会 出 现在 图 片 的 
下 中间。 图 5-1 展 示 了 一 张 数字 图 片 及 和 它 对 应 的 像素 矩阵 。 


? 
- 国 国 回国 回国 回国 国 国 -< - 
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图 5-1 数字 图 片 及 其 像素 矩阵 


在 图 5-1 的 左 侧 显示 了 一 张 数字 1 的 图 片 ， 而 右 侧 显 示 了 这 个 图 请 所 对 应 

的 像素 矩阵 ao Æ Yam LeCun 教授 的 网 站 中 
(http://yann.lecun.com/exdb/mnist) 对 MNIST 数 据 集 做 出 了 详细 的 介 

表 5-1 归 纳 了 下 载 文件 中 提供 
S 谷 。 


表 5-1 MNIST 数 据 下 载 地 址 和 内 容 


网 址 NA 

http://yann.lecun.com/exdb/mnist/train- 训练 数据 图 片 
images-idx3-ubyte.gz 

http://yann.lecun.com/exdb/mnist/train- YARE ERK 
labels-idx , -ubyte.gz 

http://yann.lecun.com/exdb/mnist/t10k- 测试 数据 图 片 
images-idx3-ubyte.gz 

http://yann.lecun.com/exdb/mnist/t10k- 测试 数据 答案 
labels-idx , -ubyte.gz 


虽然 这 个 数据 集 只 提供 了 训练 和 测试 数据 ， 但 是 为 了 验证 模型 训练 的 
效果 ， 一 般 会 从 训练 数据 中 划分 出 一 部 分 数据 作为 验证 (validation) 
数据 。 在 5.2.2 小 六 中 将 更 加 详细 地 介绍 验证 数据 的 作用 。 为 了 方便 使 
用 ，TensorFlow 提 供 了 一 个 类 来 处 理 MNIST 数 据 。 这 个 类 会 目 动 下 载 并 
转化 MNIST 数 据 的 格式 ， 将 数据 从 原始 的 数据 包 中 解析 成 训练 和 测试 
神经 网 络 时 使 用 的 格式 。 下 面 给 出 了 使 用 这 个 函数 的 样 例 程序 。 


from tensorflow.examples.tutorials.mnist import input_data 


# 载 入 MNIST 数 据 集 ， 如 果 指 定 地 址 /pathZtoZMNIST_data 下 没有 已 经 下 载 好 
的 数据 ， 


# 那么 TensorFlow 会 自动 从 表 5-1 给 出 的 网 址 下 载 数据 。 


mnist = input_data.read_data_sets("/path/to/MNIST_data/", on 
e_hot=True) 


# 打印 Training data size: 55000。 


rint "Training data size: ", mnist.train.num_examples 
T 


# 打印 Validating data size: 5000 ° 


print "Validating data size: ", mnist.validation.num_example 


S 
# 打印 Testing data size: 10000° 
print "Testing data size: ", mnist.test.num_examples 
# iT 印 
Example training data: [ 0. 0. 0. ... 0.380 0.376 os 0 


] e 


print "Example training data: ", mnist.train.images[0] 


# 打印 Example training data label: 
FAO @ 6 bb 6 0 @ ds © “| 


print "Example training data label: ", mnist.train.labels[0] 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 input_data.read_data_sets 函 数 生 成 的 类 
会 目 动 将 MNIST 数 据 集 划 分 为 rain、validation 和 test 三 个 数据 集 ， 其 中 


train 这 个 集合 内 有 55000 张 图 片 ，validation 和 集合 内 有 5000 张 图 片 ， 这 两 
个 集合 组 成 了 MNIST 本 身 提 供 的 训练 数据 集 。test 集 合 内 有 10000 张 图 
片 ， 这 些 图 片 都 来 自 于 MNIST 提 供 的 测试 数据 集 。 处 理 后 的 每 一 张 图 
片 是 一 个 长 度 为 784 的 一 维 数组 ， 这 个 数组 中 的 元 素 对 应 了 图 片 像 素 捧 
阵 中 的 每 一 个 数字 (28x28=784) 。 因 为 神经 网 络 的 输入 是 一 个 特征 向 
量 ， 所 以 在 此 把 一 张 二 维 图 像 的 像素 矩阵 放 到 一 个 一 维 数组 中 可 以 方 
便 TensorFlow 将 图 片 的 像素 矩阵 提供 给 神经 网 络 的 输入 层 。 像 素 矩 阵 中 
元 素 的 取 值 范围 为 [0, 1]， 它 代表 了 颜色 的 深浅 。 其 中 0 表示 白色 背景 

(background) ，1 表 示 黑 色 前 景 (foreground) 。 为 了 方便 使 用 随机 梯 
f= 下降，input dataread data sets 函数 生成 的 类 还 提供 了 
mnist.train.next_batch 函 数 ， 它 可 以 从 所 有 的 训练 数据 中 读 取 一 小 部 分 
作为 一 个 训练 batch。 以 下 代码 显示 了 如 何 使 用 这 个 功能 。 


batch_size = 100 
xs, ys = mnist.train.next_batch(batch_size) 
# 从 train 的 集合 中 选取 batch_size 个 训练 数据 。 


print "X shape:", xs.shape 


# 输出 X shape: (100, 784) ° 


print "Y shape:", ys.shape 


# 输出 Y shape: (100, 10) ° 


5.2 ”神经 网 络 模型 训练 及 不 同 模型 结 
RA HE 
本 节 将 利用 MNIST 数 据 集 实现 并 研究 第 4 章 中 介绍 的 神经 网 络 模型 设计 


及 优化 的 方法 。 首 先 ， 在 5.2.1 小 市 中 将 给 出 一 个 完整 的 TensorFlow 程 序 
来 解决 MNIST 问 题 。 这 个 程序 整合 了 第 4 章 中 介绍 的 所 有 优化 方法 ， 训 


练 好 的 神经 网 络 模型 在 MNIST 测 斌 数据 集 上 可 以 达到 98.4% 左 右 的 正确 
率 。 然 后 5.2.2 小 和 将 介绍 验证 数据 集 在 训练 神经 网 络 过 程 中 的 作用 。 
这 一 小 节 将 通过 5.2.1 小 节 中 得 到 的 实验 数据 来 证 明 ， 神 经 网 络 在 验证 
数据 集 上 的 表现 可 以 近似 地 作为 评价 不 同 神经 网 络 模 型 的 标准 或 者 决 
定 和 迭代 轮 数 的 依据 。 最 后 5.2.3 小 节 将 通过 MNIST 数 据 集 验 证 第 4 章 中 介 
绍 的 每 一 个 优化 方法 。 通 过 在 MNIST 数 据 集 上 的 实验 可 以 看 到 ， 这 些 
优化 方法 都 可 以 或 多 或 少 地 提高 神经 网 络 的 分 类 正确 率 。 


5.2.1 ”TensorFlow 训 练 神经 网 络 


这 一 小 节 将 给 出 一 个 完整 的 TensorFlow 程 序 来 解决 MNIST 手 写 体 数字 识 
别 问 题 。 这 一 小 节 中 给 出 的 程序 实现 了 第 4 章 中 介绍 的 神经 网 络 结构 设 
计 和 训练 优化 的 所 有 方法 。 在 给 出 具体 的 代码 之 前 ， 先 回顾 一 下 第 4 章 
中 提 到 的 主要 概念 。 在 神经 网 络 的 结构 上 ， 深 度 学 习 一 方面 需要 使 用 
激活 函数 实现 神经 网 络 模型 的 去 线性 化 ， 另 一 方面 需要 使 用 一 个 或 多 
个 隐藏 层 使 得 神经 网 络 的 结构 更 深 ， 以 解决 复杂 问题 。 在 训练 神经 网 
络 时 ， 第 4 章 介绍 了 使 用 带 指 数 衰减 的 学 习 率 设置 、 使 用 正则 化 来 避免 
过 度 拟 合 ， 以 及 使 用 滑动 平均 模型 来 使 得 最 终 模 型 更 加 健壮 。 以 下 代 
码 给 出 了 一 个 在 MNIST 数 据 集 上 实现 这 些 功 能 的 完整 的 TensorFlow 程 
序 。 


import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# MNIST 数 据 集 相关 的 常数 。 


INPUT_NODE = 784 # 输入 层 的 节点 数 。 对 于 MNIST 数 据 集 ， 这 个 就 等 于 
图 片 的 像素 。 
OUTPUT_NODE = 10 # 输出 层 的 节点 数 。 这 个 等 于 类 别 的 数目 。 因 为 在 


MNIST 数 据 集 中 


H 需要 区 分 的 是 9~9 这 10 个 数字 ， 所 以 这 里 
输出 层 的 节点 数 为 10。 


# 配置 神经 网 络 的 参数 。 


LAYER1_NODE = 500 # 隐藏 层 节 点 数 。 这 里 使 用 只 有 一 个 隐藏 层 的 网 络 
结构 作为 样 例 。 


# 这 个 隐藏 屋 有 500 个 节点 。 


BATCH_SIZE = 100 


# 一 个 训练 batch 中 的 训练 数据 个 数 。 数 字 越 小 
时 ， 训 练 过 程 越 接近 


# 随机 梯度 下 降 ;， 数字 越 大 时 ， 训 练 越 接近 梯 


a 
LEARNING_RATE_BASE = 0.8 # 基础 的 学 习 率 。 
LEARNING_RATE_DECAY = 0.99 # 学 习 率 的 衰减 率 。 
REGULARIZATION_RATE = 0.0001 # 描述 模型 复杂 度 的 正则 化 项 
在 损失 函数 中 的 系数 。 
TRAINING_STEPS = 30000 # 训练 轮 数 。 
MOVING_AVERAGE_DECAY = 0.99 # 滑动 平均 衰减 率 。 


# 一 个 辅助 画 数 ， 给 定神 经 网 络 的 输入 和 所 有 参数 ， 计 算 神经 网 络 的 前 向 传播 结 
FR ° FER 


# 定义 了 一 个 使 用 ReLU 激 活 函 数 的 三 层 全 连接 神经 网 络 。 通 过 加 入 隐藏 层 实现 了 
多 层 网 络 结构 ， 


# 通过 ReLU 激 活 函 数 实现 了 去 线性 化 。 在 这 个 画 数 中 也 支持 传 入 用 于 计算 参数 平 
均值 的 类 ， 


# 这 样 方便 在 测试 时 使 用 滑动 平均 模型 。 
def inference(input tensor, avg_class, weightsi, biasesi, 
weights2, biases2): 
# 当 没 有 提供 滑动 平均 类 时 ， 直 接 使 用 参数 当前 的 取 值 。 


if avg_class == None: 


# 计算 隐藏 层 的 前 向 传播 结果 ， 这 里 使 用 了 ReLU 激 活 函 数 。 


layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) 
+ biases1) 


# 计算 输出 层 的 前 癌 传 播 结 果 。 因 为 在 计算 损失 函数 时 会 一 并 计算 
softmax AL, 


# 所 以 这 里 不 需要 加 入 激活 函数 。 而 且 不 加 入 softmax 不 会 影响 预测 
结果 。 因 为 预测 时 


# 使 用 的 是 不 同类 别 对 应 节点 输出 值 的 相对 大 小 ， 有 没有 softmax 层 
对 最 后 分 类 结果 的 


# 计算 没有 影响 。 于 是 在 计算 整个 神经 网 络 的 前 向 传播 时 可 以 不 加 入 
最 后 的 Softmax 层 。 


return tf.matmul(layer1, weights2) + biases2 


else: 
# 首先 使 用 avg_class .average 了 画 数 来 计算 得 出 变量 的 滑动 平均 值 ， 
H 然后 再 计算 相应 的 神经 网 络 前 向 传播 结果 。 
layeri = tf.nn.relu( 


tf.matmul(input_tensor, avg_class.average(weigh 
ESD) + 


avg_class.average(biases1) ) 


return tf.matmul(layer1, avg_class.average(weights2) ) 


avg_class. average(biases2) 


# 训练 模型 的 过 程 。 
def train(mnist): 


x = tf.placeholder(tf.float32, [None, INPUT_NODE], name= 
'x-input') 


y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], nam 
e='y-input' ) 


# 生成 隐藏 层 的 参数 。 


weights1 = tf.Variable( 


tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stdde 
v=0.1)) 


biases1 = tf.Variable(tf.constant(0.1, shape= 
[ LAYER1_NODE]) ) 


# 生成 输出 层 的 参数 。 
weights2 = tf.Variable( 


tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stdd 
ev=0.1)) 


biases2 = tf.Variable(tf.constant(0.1, shape= 
[ OUTPUT_NODE] ) ) 


# 计算 在 当前 参数 下 神经 网 络 前 向 传播 的 结果 。 这 里 给 出 的 用 于 计算 滑动 平 
均 的 类 为 None， 


# 所 以 函数 不 会 使 用 参数 的 滑动 平均 值 。 


y = inference(x, None, weightsi, biasesi, weights2, bias 
es2) 


# 定义 存储 训练 轮 数 的 变量 。 这 个 变量 不 需要 计算 滑动 平均 值 ， 所 以 这 里 指 


# 一 般 会 将 代表 训练 轮 数 的 变量 指定 为 不 可 训练 的 参数 。 


global_step = tf.Variable(0, trainable=False) 


# 给 定 滑动 平均 衰减 率 和 训练 轮 数 的 变量 ， 初 始 化 滑动 平均 类 。 在 第 4 章 中 介 


# 定 训练 轮 数 的 变量 可 以 加 快 训练 早期 变量 的 更 新 速度 。 


variable_averages = tf.train.ExponentialMovingAverage( 


MOVING_AVERAGE_DECAY, global_step) 


# 在 所 有 代表 神经 网 络 参 数 的 变量 上 使 用 滑动 平均 。 其 他 辅助 变量 (比如 
global_step) 就 


# 不 需要 了 。 tf.trainable variables 返 回 的 就 是 图 上 集合 


# GraphKeys.TRAINABLE_ VARIABLES 中 的 元 素 。 这 个 集合 的 元 素 就 是 所 
有 没有 指定 


# trainable=False 的 参数 。 
variables_averages_op = variable_averages.apply( 


tf.trainable_variables()) 


# 计算 使 用 了 滑动 平均 之 后 的 前 向 传播 结果 。 第 4 章 中 介绍 过 滑动 平均 不 会 改 


变 变量 本 身 的 


N 


# 取 值 ， 而 是 会 维护 一 个 影子 变量 来 记录 其 滑动 平均 值 。 所 以 当 需 要 使 用 这 
个 滑动 平均 值 时 ， 


# 需要 明确 调用 average 画 数 。 


average_y = inference( 


x, variable_averages, weightsi, biasesi1, weights2, b 
iases2) 


E AIREA ZI (BSB Z EP Lo TR A 
TensorFlow 中 提 


# 供 的 sparse_softmax_cross_entropy_with_logits 画 数 来 计算 交 
SURG ° 44 ap 28 


# HIJRA- NERAZ, a MEA AA Be BUR DN DR 0 A it o 
MNIST 问 题 的 图 片 中 


# 只 包含 了 0~9 中 的 一 个 数字 ， 所 以 可 以 使 用 这 个 画 数 来 计算 交叉 粹 损失 。 
这 个 函数 的 第 一 个 


# 参数 是 神经 网 络 不 包括 sof tmax 层 的 前 向 传播 结果 ， 第 二 个 是 训练 数据 的 
正确 答案 。 因 为 


H 标准 答案 是 一 个 长 度 为 10 的 一 维 数组 ， 而 该 函数 需要 提供 的 是 一 个 正确 答 
案 的 数字 ， 所 以 需 


# 要 使 用 tf.argmax 画 数 来 得 到 正确 答案 对 应 的 类 别 编号 。 


cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_ 
logits( 


y, tf.argmax(y_, 1)) 


# WRES Bibatch PAE PAI RFE e 


cross_entropy_mean = tf.reduce_mean(cross_entropy) 


# 计算 L2 正 则 化 损失 函数 。 


regularizer = tf.contrib.layers.12_regularizer (REGULARIZ 
ATION_RATE) 


# 计算 模型 的 正则 化 损失 。 一 般 只 计算 神经 网 络 边 上 权重 的 正则 化 损失 ， 而 
不 使 用 偏 置 项 。 


regularization = regularizer(weights1) + regularizer (wei 
ghts2) 


# 总 损失 等 于 交叉 灶 损 失 和 正则 化 损失 的 和 。 
loss = cross_entropy_mean + regularizaztion 
# 设置 指数 衰减 的 学 习 率 。 


learning_rate = tf.train.exponential_decay( 


LEARNING_RATE_BASE, # 基础 的 学 习 率 ， 随 着 迭代 的 进 
行 ， 更 新 变量 时 使 用 的 


# 学 习 率 在 这 个 基础 上 递 


减 。 
global_step, # 当前 迭代 的 轮 数 。 
mnist.train.num_examples / BATCH_ SIZE, # 过 完 所 有 的 


训练 数据 需要 的 迭 


代 次 数 。 


LEARNING_ RATE_DECAY) # 学 习 率 衰减 速度 。 


# (@Atf.train.GradientDescentOptimizer (ht FIER iA BA ° TE 
意 这 里 损失 函数 


# ALE [20 TRAIL 2 EMILE © 
train_step=tf.train.GradientDescentOptimizer(learning_rate)\ 
.minimize(loss, global_step=global_step) 


# 在 训练 神经 网 络 模型 时 ， 每 过 一 裔 数据 既 需 要 通过 反 向 传播 来 更 新 神经 网 络 中 的 


# 又 要 更 新 每 一 个 参数 的 滑动 平均 值 。 为 了 一 次 完成 多 个 操作 ，TensorFLow 提 供 


# tf.control_dependencies 和 tf.group 两 种 机 制 。 下 面 两 行程 序 和 


# train op = tf.group(train_step，variables_averages_op) 是 等 


价 的 。 


with tf.control_dependencies([train_step, variables_averages 


—op]): 


train_op = tf.no_op(name='train' ) 


# 检验 使 用 了 滑动 平均 模型 的 神经 网 络 前 向 传播 结果 是 否 正确 。 


tf.argmax(average_y, 1) 


# 计算 每 一 个 样 例 的 预测 答案 。 其 中 average_y 是 一 个 batch_size * 10 的 二 
侍 数 组 ， 每 一 行 


Aw 


# 表示 一 个 样 例 的 前 向 传播 结果 。tf ,argmax 的 第 二 个 参数 “1 表示 选取 最 大 值 
的 操作 仅 在 第 一 


# 个 维度 中 进行 ， 也 就 是 说 ， 只 在 每 一 行 选取 最 大 值 对 应 的 下 标 。 于 是 得 到 的 结果 
是 一 个 长 度 为 


Aw 


# batch 的 一 维 数组 ， 这 个 
果 。tf.edual 


对 数组 中 的 值 就 表示 了 每 一 个 样 例 对 应 的 数字 识别 


OH 


# 判断 两 个 张 量 的 每 一 维 是 否 相 等 ， 如 果 相 等 返回 True， 否 则 返回 False 。 


correct_prediction = tf.equal(tf.argmax(average y, 1), tf.ar 
gmax(y_,1)) 


# 这 个 运算 首先 将 一 个 布尔 型 的 数值 转换 为 实数 型 ， 然 后 计算 平均 值 。 这 个 平均 值 
就 是 模型 在 这 


# 一 组 数据 上 的 正确 率 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.flo 
at32)) 


# 初始 化 会 话 并 开始 训练 过 程 。 


with tf.Session() as sess: 


tf.initialize_all_variables().run() 


H 准备 验证 数据 。 一 般 在 神经 网 络 的 训练 过 程 中 会 通过 验证 数据 来 大 致 判断 


停止 的 
# 条 件 和 评判 训练 的 效果 。 


validate_feed = {x: mnist.validation.images, 


y_: mnist.validation. labels} 


# 准备 测试 数据 。 在 真实 的 应 用 中 ， 这 部 分 数据 在 训练 时 是 不 可 见 的 ， 这 个 
数据 只 是 作为 模 


# 型 优 务 的 最 后 评价 标准 。 


test_feed = {x: mnist.test.images, y_: mnist.test.labels 


} 
# 迭代 地 训练 神经 网 络 。 
for i in range(TRAINING_STEPS): 
# 每 1000 轮 输出 一 次 在 验证 数据 集 上 的 测试 结果 。 
if i % 1000 == 0: 
# 计算 滑动 平均 模型 在 验证 数据 上 的 结果 。 因 为 MNIST 数 据 集 比 较 小 ， 
所 以 一 次 
# 可 以 处 理 所 有 的 验证 数据 。 为 了 计算 方便 ， 本 样 例 程序 没有 将 验证 数 
据 划 分 为 更 
# 小 的 batch。 当 神经 网 络 模型 比较 复杂 或 者 验证 数据 比较 大 时 ， 太 大 
的 batch 


# 会 导致 计算 时 间 过 长 甚至 发 生 内 存 溢出 的 错误 。 


validate_acc = sess.run(accuracy, feed_dict=va 
lidate_feed) 


print("After %d training step(s), validation a 


ccuracy " 


"using average model is %g " % (i, vali 
date_acc)) 


# 产生 这 一 轮 使 用 的 一 个 batch 的 训练 数据 ， 并 运行 训练 过 程 。 


xs, ys = mnist.train.next_batch(BATCH_SIZE) 


sess.run(train_op, feed_dict={x: xs, y_: ys}) 


# 在 训练 结束 之 后 ， 在 测试 数据 上 检测 神经 网 络 模型 的 最 终 正 确 率 。 


test_acc = sess.run(accuracy, feed_dict=test_feed) 


print("After %d training step(s), test accuracy using av 
erage " 


"model is %g" % (TRAINING_STEPS, test_acc) ) 


# 主 程序 入 口 。 


def main(argv=None ) : 


# 声明 处 理 MNIST 数 据 集 的 类 ， 这 个 类 在 初始 化 时 会 自动 下 载 数 据 。 


mnist = input_data.read_data_sets("/tmp/data", one_hot=T 
rue) 


train(mnist ) 


# TensorFlow 提 供 的 一 个 主 程序 入 口 ，tf.app.run 会 调用 上 面 定义 的 main 画 
Hy © 


if _name_ == '_main_': 


tf.app.run() 


运行 上 面 的 程序 ， 将 得 到 类 似 下 面 的 输出 结果 a 


Extracting /tmp/data/train-images-idx3-ubyte.gz 
Extracting /tmp/data/train-labels-idx1-ubyte.gz 
Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
Extracting /tmp/data/t10k-labels-idx1i-ubyte.gz 


After 0 training step(s), validation accuracy on average mod 
el is 0.105 


After 1000 training step(s), validation accuracy using avera 
ge model is 0.9774 


After 2000 training step(s), validation accuracy using avera 
ge model is 0.9816 


After 3000 training step(s), validation accuracy using avera 
ge model is 0.9834 


After 4000 training step(s), validation accuracy using avera 
ge model is 0.9832 


After 27000 training step(s), validation accuracy using aver 
age model is 0.984 


After 28000 training step(s), validation accuracy using aver 
age model is 0.985 


After 29000 training step(s), validation accuracy using aver 
age model is 0.985 


After 29999 training step(s), validation accuracy using aver 
age model is 0.985 


After 30000 training step(s), test accuracy on average model 
USE OR 984 can : 


从 上 面 的 结 末 可 以 看 出 ， 在 训练 初期 ， 随 大 训练 的 进行 ， 柑 型 在 验证 
数据 集 上 的 表现 越 来 越 好 。 从 第 4000 轮 开始 ， 模 型 在 验证 数据 集 上 的 
表现 开始 波动 ， 这 说 明 模 型 已 经 接近 极 小 值 了 ， 所 以 迭代 也 束 可 以 结 
束 了 。 下 面 的 5.2.2 小 方 将 详细 介绍 验证 数据 集 的 作用 。 


5.2.2 ”使 用 验证 数据 集 判 断 模 型 效果 


在 5.2.1 小 节 给 出 了 使 用 神经 网 络 解决 MNIST 问 题 的 完整 程序 。 在 这 个 
程序 的 开始 设置 了 初始 学 习 率 、 学 习 率 误 减 率 、 隐 藏 层 节点 数量 、 和 失 
代 轮 数 等 7 种 不 同 的 参数 。 那 么 如 何 设 置 这些 参 数 的 取 值 呢 ? 在 大 部 分 
情况 下 ， 配 置 神 经 网 络 的 这 些 参数 都 是 需要 通过 实验 来 调整 的 。 虽 然 
一 个 神经 网 络 模型 的 效果 最 终 是 通过 测试 数据 来 评判 的 ， 但 是 我 们 不 
能 直接 通过 模型 在 测试 数据 上 的 效果 来 选择 参数 。 使 用 测试 数据 来 选 
取 参 数 可 能 会 导致 神经 网 络 模型 过 度 拟 合 测 试 数据 ， 从 而 失去 对 未 知 
数据 的 预 判 能 力 。 因 为 一 个 神经 网 络 模型 的 最 终 目 标 是 对 未 知 数据 提 
供 判 断 ， 所 以 为 了 估计 模型 在 未 知 数据 上 的 效果 ， 需 要 保证 测试 数据 


在 训练 过 程 中 是 不 可 见 的 。 只 有 这 样 才 能 保证 通过 测试 数据 评估 出 来 
的 效果 和 在 真实 应 用 场景 下 模型 对 未 知 数据 预 判 的 效果 是 接近 的 。 于 
是 ， 为 了 评测 神经 网 络 模 型 在 不 同 参数 下 的 效果 ， 一 般 会 从 训练 数据 
中 抽取 一 部 分 作为 验证 数据 。 使 用 验证 数据 就 可 以 评判 不 同 参数 取 值 
下 模型 的 表现 。 除 了 使 用 验证 数据 集 ， 还 可 以 采用 交叉 验证 (cross 
validation) 的 方式 来 验证 模型 效果 。 但 因为 神经 网 络 训 练 时 间 本 号 就 
比较 长 ， 采 用 cross validation 会 花费 大 量 时 间 。 所 以 在 海量 数据 的 情况 
下 ， 一 般 会 更 多 地 采用 验证 数据 集 的 形式 来 评测 模型 的 效果 。 


在 本 小 节 中 ， 为 了 说 明 验证 数据 在 一 定 程度 上 可 以 作为 模型 效果 的 评 
判 标准 ， 我 们 将 对 比 在 不 同和 迭代 轮 数 的 情况 下 ， 模 型 在 验证 数据 和 测 
试 数据 上 的 正确 率 。 为 了 同时 得 到 同一 个 模型 在 验证 数据 和 测试 数据 
上 的 正确 率 ， 可 以 在 每 1000 轮 的 输出 中 加 入 在 测试 数据 集 上 的 正确 
率 。 在 5.2.1 小 节 给 出 的 代码 中 加 入 以 下 代码 ， 就 可 以 得 到 每 1000 轮 选 
代 后 ， 使 用 了 滑动 平均 的 模型 在 验证 数据 和 测试 数据 上 的 正确 率 。 


# 计算 滑动 平均 模型 在 测试 数据 和 验证 数据 上 的 正确 率 。 


validate_acc = sess.run(accuracy, feed_dict=validate_fee 
d) 


test_acc = sess.run(accuracy, feed_dict=test_feed) 


# 输出 正确 率 信 息 。 


print("After %d training step(s), validation accuracy us 
ing average " 


"model is %g, test accuracy using average model i 
s %g" % 


(i, validate_acc, test _acc)) 


图 5-2 给 出 了 通过 上 面 代码 得 到 的 每 1000 轮 滑动 平均 模型 在 不 同 数据 集 
上 的 正确 率 曲 线 。 图 5-2 中 灰色 的 曲线 表示 随 着 磊 代 轮 数 的 增加 ， 模 型 


在 验证 数据 上 的 正确 率 ; 而 黑色 的 曲线 表示 了 在 测试 数据 上 的 正确 
率 。 从 图 5-2 中 可 以 看 出 ， 虽 然 这 两 条 曲线 不 会 完全 重合 ， 但 是 这 两 条 
曲线 的 趋势 基本 一 样 ， 而 且 他 们 的 相关 系数 (correlation coefficient) 大 
于 0.9999。 这 意味 着 在 MNIST 问 题 上 ， 完 全 可 以 通过 模型 在 验证 数据 上 
的 表现 来 判断 一 个 模型 的 优 劣 。 


0.986 


0.984 


0.982 


正确 率 


验证 数据 集 上 正确 率 


一 一 测试 数据 集 上 正确 率 
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图 5-2 ”不 同 迭 代 轮 数 下 滑动 平均 模型 在 验证 数据 集 和 测试 数据 集 上 的 正确 率 


当然 ， 以 上 结论 是 针对 MNIST 这 个 数据 集 的 ， 对 于 其 他 问题 ， 还 需要 
具体 问题 具体 分 析 。 不 同 问题 的 数据 分 布 不 一 样 ， 如 果 验 证 数据 分 布 
不 能 很 好 地 代表 测试 数据 分 布 ， 那 么 模型 在 这 两 个 数据 集 上 的 表现 就 
有 可 能 不 一 样 。 所 以 ， 验 证 数据 的 选取 方法 是 非常 重要 的 ， 一 般 来 说 
选取 的 验证 数据 分 布 越 接近 测试 数据 分 布 ， 模 型 在 验证 数据 上 的 表现 
越 可 以 体现 模型 在 测试 数据 上 的 表现 。 但 通过 本 小 节 中 介绍 的 实验 ， 
et 
一 个 可 行 的 方案 。 


5.2.3 “不同 模型 效果 比较 


本 小 市 将 通过 MNIST 数 据 集 来 比较 第 4 章 中 提 到 的 不 同 优化 方法 对 神经 
网 络 模型 正确 率 的 影响 。 本 小 广 将 使 用 神经 网 络 模型 在 MNIST 测 试 数 
据 集 上 的 正确 率 作为 评价 不 同 优化 方法 的 标准 。 在 本 小 市 中 一 个 模型 
在 MNIST 测 试 数 据 集 上 的 正确 率 将 简称 为 “正确 率 *。 在 第 4 章 中 提 到 了 
设计 神经 网 络 时 的 5 种 优化 方法 。 在 神经 网 络 结构 的 设计 上 ， 和 需要 使 用 


激活 函数 和 多 层 隐 藏 层 。 在 神经 网 络 优化 时 ， 可 以 使 用 指数 衰减 的 学 
习 率 、 加 入 正则 化 的 损失 函数 以 及 渭 动 平 均 模 型 。 在 图 5-3 中 ， 给 出 了 
在 相同 神经 网 络 参数 下 各 ， 使 用 不 同 优化 方法 ， 经 过 30000 轮 训练 迷 代 
后 ， 得 到 的 最 终 模 型 的 正确 率 扣 。 图 5-3 给 出 的 结果 中 包含 了 使 用 所 有 
优化 方法 训练 得 到 的 模型 和 不 用 其 中 某 一 项 优化 方法 训练 得 到 的 模 
型 。 通 过 这 种 方式 ， 可 以 有 效 验 证 每 一 项 优化 方法 的 效果 。 
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使 用 所 有 优化 不 用 滑动 平均 不 用 正则 化 不 用 指数 衰减 学 习 率 不 用 隐藏 层 不 用 激活 函数 


图 5-3 ”不同 模型 的 正确 率 


从 图 5-3 中 可 以 很 明显 地 看 出 ， 调 整 神经 网 络 的 结构 对 最 终 的 正确 率 有 
非常 大 的 影响 。 没 有 隐藏 层 或 者 没有 激活 函数 时 ， 模 型 的 正确 率 只 有 
大 约 92.6%， 这 个 数字 要 远 远 小 于 使 用 了 隐藏 层 和 激活 函数 时 可 以 达到 
的 大 约 98.4% 的 正确 率 。 这 说 明神 经 网 络 的 结构 对 最 终 模型 的 效果 有 本 
质 性 的 影响 。 第 6 章 将 会 介绍 一 种 更 加 特殊 的 神经 网 络 结构 一 一 卷 积 神 
经 网 络 。 卷 积 神经 网 络 可 以 更 加 有 效 地 处 理 图 像 信息 。 通 过 卷 积 神经 
网 络 ， 可 以 进一步 将 正确 率 提高 到 大 约 99.5% © 


从 图 5-3 上 的 数字 中 可 发 现 使 用 滑动 平均 模型 、 指 数 衰减 的 学 习 率 和 使 
用 正则 化 市 来 的 正确 率 的 提升 并 不 是 特别 明显 。 其 中 使 用 了 所 有 优化 
算法 的 模型 和 不 使 用 滑动 平均 的 模型 以 及 不 使 用 指数 衰减 的 学 习 率 的 
模型 都 可 以 达到 大 约 98.4% 的 正确 率 。 这 是 因为 滑动 平均 模型 和 指数 衰 
减 的 学 习 率 在 一 定 程度 上 都 是 限制 神经 网 络 中 参数 更 新 的 速度 ， 然 而 
在 MNIST 数 据 上 ， 因 为 模型 收敛 的 速度 很 快 ， 所 以 这 两 种 优化 对 最 终 
模型 的 影响 不 大 。 从 图 5-2 中 可 以 看 到 ， 当 模型 迭代 到 4000 轮 时 正确 率 
就 已 经 接近 最 终 的 正确 率 了。 而 在 达 代 的 早期 ， 是 否 使 用 滑动 平均 模 
型 或 者 指数 衰减 的 学 习 率 对 训练 结果 的 影响 相对 较 小 。 图 5-4 显 示 了 不 


同 送 代 轮 数 时 ， 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 平均 绝对 梯度 
的 变化 趋势 。 图 5-5 显 示 了 不 同 泛 代 轮 数 时 ， 正 确 率 与 衰减 之 后 的 学 习 
来 的 变化 趋势 


0.99 
ee 0.00091 
0.00081 
0.97 
we 0.00071 
ý N 
0.00061 = 
St 0.95 = 
= 0.00051 *& 
H 0.94 BS 
0.00041 & 
0.93 正确 率 0.00031 “7 
0.92 0.00021 


一 一 平均 绝对 梯度 


0.00011 


0.00001 


TE ANFE RL 


图 5-4 48 FIT PIAS ACT RIRE EAR PEE EEA TIA CORA HY EA 


0.99 
0.98 0.8 
0.97 0.75 
0.96 0.7 
RE 0.95 0.65 Mt 
= R 
= 0.94 0.6 i, 
~ 0.93 0.55 
0.92 0.5 
0.91 0.45 
0.9 0.4 


BARE RL 


图 5-5 EAA T A CCT ERRE ER A) RE RIA RT HE 


从 图 5-4 中 可 以 看 到 ， 前 4000 轮 迭代 对 模型 的 改变 是 最 大 的 。 在 4000 轮 
之 后 ， 因 为 梯度 本 映 比 较 小 ， 所 以 参数 的 改变 也 就 比较 缓慢 了 。 于 是 
滑动 平均 模型 或 者 指数 衰减 的 学 习 率 的 作用 也 就 没有 那么 突出 了 。 从 
图 5-5 中 可 以 看 到 ， 学 习 率 曲线 呈现 出 阶梯 状 衰 减 ， 在 前 4000 轮 时 ， 豪 


减 之 后 的 学 习 率 和 最 初 的 学 习 率 差距 并 不 大 。 那 么 ， 这 有 是 否 能 说 明 这 
些 优 化 方法 作用 不 大 呢 ? 答 案 是 否定 的 。 当 问题 更 加 复杂 时 ， 适 代 不 
会 这 么 快 接近 收敛， 这 时 滑动 平均 模型 和 指数 衰减 的 学 习 率 可 以 发 挥 
更 大 的 作用 。 比 如 在 Cifar-10 图 像 分 类 数据 集 上 ， 使 用 滑动 平均 模型 可 
以 将 错误 率 降 低 11%， 而 使 用 指数 衰减 的 学 习 率 可 以 将 错误 率 降 低 
7% ° 


相 比 滑动 平均 模型 和 指数 衰减 学 习 率 ， 使 用 加 入 正则 化 的 损失 函数 给 
模型 效果 带 来 的 提升 要 相对 显著 。 使 用 了 正则 化 损失 函数 的 神经 网 络 
模型 可 以 降低 大 约 6% 的 错误 率 (从 1.69% 降 低 到 1.59%) 。 图 5-6 和 图 5- 
7 显示 了 正则 化 给 模型 优化 过 程 带 来 的 影响 。 图 5-6 和 图 5-7 对 比 了 两 个 
使 用 了 不 同 损失 函数 的 神经 网 络 模 型 。 一 个 模型 只 最 小 化 交 义 信 损 
失 ， 以 下 代码 给 出 了 只 优化 交叉 箭 模型 的 模型 优化 函数 的 声明 语句 。 


train_step = tf.train.GradientDescentOptimizer(learning_rate 
)\ 


.minimize(cross entropy mean, global step= 
global_step) 


FN RF IE E SAL 2 正则 化 损失 的 和 。 以 下 代码 给 出 了 这 
个 模型 优化 函数 的 声明 语句 。 


loss = cross_entropy_mean + regularaztion 


train_step = tf.train.GradientDescentOptimizer(learning_rate 
)\ 


.minimize(loss, global_step=global_step) 


在 图 5-6 中 灰色 和 黑色 的 实 线 给 出 了 两 个 模型 正确 率 的 变化 趋势 ， 虚 线 
LEH TES BW Ul BRbatch LAVAS VATA 。 
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图 5-6 不同 模 型 在 不 同和 欠 代 轮 数 时 交叉 精 和 正确 率 的 关系 


从 图 5-6 中 可 以 看 出 ， 只 优化 交叉 炳 的 模型 在 训练 数据 上 的 交叉 入 损失 
(灰色 虚线 ， 要 比 优化 总 损失 的 模型 更 小 (黑色 虚线 。 然 而 在 测试 
数据 上 ， 优 化 总 损失 的 模型 (黑色 实 线 ) BET AUC HY 
型 (KEL) 。 这 个 原因 就 是 第 4 章 中 介绍 的 过 拟 合 问题 。 只 优化 交 
SORA Be A FY CLE RB (SS NT BES), (ERAN 
能 很 好 地 控 据 数据 中 潜在 的 规律 来 判断 未 知 的 测试 数据 ， 所 以 在 测试 
数据 上 的 正确 率 低 。 


图 5-7 显 示 了 不 同 模型 的 损失 函数 的 变化 趋势 。 图 5-7 的 左 侧 显示 了 只 优 
化 交叉 灶 的 模型 损失 函数 的 变化 规律 。 可 以 看 到 随 着 和 迭 代 的 进行 ， 正 
则 化 损失 是 在 不 断 加 大 的 。 因 为 MNIST 问 题 相对 比较 简单 ， 送 代 后 期 
的 梯度 很 小 (参考 图 5-4) ， 所 以 正则 化 损失 的 增长 也 不 快 。 如 果 问 题 
更 加 复杂 ， 和 迭代 后 期 的 梯度 更 大 ， 就 会 发 现 总 损失 AMMA E 
正则 化 损失 ) 会 呈现 出 一 个 U 字 型 。 在 图 5-7 的 右 侧 ， 显 示 了 优化 总 损 
失 的 模型 损失 函数 的 变化 规律 。 从 图 5-7 中 可 以 看 出 ， 这 个 模型 的 正则 
化 损失 部 分 也 可 以 随 着 迭代 的 进行 越 来 越 小 ， 从 而 使 得 整体 的 损失 呈 
现 一 个 逐步 递减 的 趋势 。 
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图 5-7 ”正则 化 损失 值 和 总 损失 的 变化 趋势 


总 的 来 说 ， 通 过 MNIST 数 据 集 有 效 地 验证 了 激活 函数 、 隐 藏 层 可 以 给 
模型 的 效果 带 来 质 的 飞跃 。 由 于 MNIST 问 题 本 身 相 对 简单 ， 滑 动 平均 
模型 、 指 数 豪 减 的 学 习 率 和 正则 化 损失 对 最 终 正确 率 的 提升 效果 不 明 
显 。 但 通过 进一步 分 析 实 验 的 结果 ， 可 以 得 出 这 些 优化 方法 确实 可 以 
解决 第 4 章 中 提 到 的 神经 网 络 优化 过 程 中 的 问题 。 当 需要 解决 的 问题 和 
使 用 到 的 神经 网 络 模型 更 加 复杂 时 ， 这 些 优化 方法 将 更 有 可 能 对 训练 
效果 产生 更 大 的 影响 。 


53 ”变量 管理 


在 5.2.1 小 节 中 将 计算 神经 网 络 前 向 传播 结果 的 过 程 抽象 成 了 一 个 画 
数 。 通 过 这 种 方式 在 训练 和 测试 的 过 程 中 可 以 统一 调用 同一 个 函数 来 
得 模型 的 前 向 传播 结果 。 在 5.2.1 小 节 中 ， 这 个 函数 的 定义 为 : 


def inference(input_tensor, avg_class, weightsi, biasesi, we 
ights2, biases2): 


从 定义 中 可 以 看 到 ， 这 个 函数 的 参数 中 包括 了 神经 网 络 中 的 所 有 参 
数 。 然 而 ， 当 神经 网 络 的 结构 更 加 复杂 、 参 数 更 多 时 ， 束 需要 一 个 更 
好 的 方式 来 传递 和 管理 神经 网 络 中 的 参数 了 。TensorFlow 提 供 了 通过 变 
量 名 称 来 创建 或 者 获取 一 个 变量 的 机 制 。 通 过 这 个 机 制 ， 在 不 同 的 范 
数 中 可 以 直接 通过 变量 的 名 字 来 使 用 变量 ， 而 不 需要 将 变量 通过 参数 
的 形式 到 处 传递 。TensorFlow 中 通过 变量 名 称 获取 变量 的 机 制 主 要 是 通 
过 tf.get_variable 和 tf.variable_scope 芳 数 实 现 的 。 下 面 将 分 别 介 绍 如 何 使 
FAIR PNT ER BY o 


第 4 章 介绍 了 通过 tf.Variable 函 数 来 创建 一 个 变量 。 除 了 tt.Variable 函 数 ， 

TensorFlow 还 提供 了 tf.get_variable 函数 来 创建 或 者 获取 变量 。 当 
tf.get_variable 用 于 创建 变量 时 ， 它 和 tf.Variable 的 功能 是 基本 等 价 的 。 
以 下 代码 给 出 了 通过 这 两 个 函数 创建 同一 个 变量 的 样 例 。 


# 下 面 这 两 个 定义 是 等 价 的 。 


< 
lI 


tf.get_variable("v", shape=[1], 


initializer=tf.constant_initializer( 
1.0)) 


v = tf.Variable(tf.constant(1.0, shape=[1]), name="v") 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 tft.Variable 和 tt.get_variable 函 数 创 建 变 
量 的 过 程 基 本 上 是 一 样 的 。tf.get_variable 函数 调用 时 提供 的 维度 

(shape) 信息 以 及 初始 化 方法 (initializer) 的 参数 和 七 variable 函数 调 
用 时 提供 的 初始 化 过 程 中 的 参数 也 类 似 。TensorFlow 中 提供 的 initializer 
函数 和 3.4.3 小 地 中 介绍 的 随机 数 以 及 第 量 生成 男 数 大 部 分 是 一 一 对 应 
的 。 比 如 ， 在 上 面 的 样 例 程序 中 使 用 到 的 常数 初始 化 函数 
tf.constant_initializer FU # Zi Æ K Ee Av tf.constant D RE E Wize — BLY ° 
ore 7 种 不 同 的 初始 化 函数 ， 表 5-2 总 结 了 它们 的 功能 和 主 


表 5-2 ”TensorFlow 中 的 变量 初始 化 函数 


初始 化 函数 功能 主要 参数 
tf.constant_initializer 将 变量 初始 化 为 常量 的 取 值 

给 定常 量 
tf.random normal initializer 将 变量 初始 化 为 正 态 分 布 的 均 


满足 正 态 分 布 的 随 值 和 标准 过 
机 值 


tf.truncated_normal_ initializer 将 变量 初始 化 为 正 态 分 布 的 均 
满足 正 态 分 布 的 随 值 和 标准 关 
机 值 ， 但 如 果 随 机 
出 来 的 值 偏 离 平 均 
值 超过 2 个 标准 
=, MAITO 


会 被 重新 随机 
tf.random_ uniform initializer 将 变量 初始 化 为 最 大 、 最 小 
Le. 分 布 的 随 值 


tf.uniform_unit_scaling_initializer ”将 变量 初始 化 为 factor (产生 随 


EFI 站 布 但 不 机 值 时 乘 以 的 


影响 输出 数量 级 的 系数 ) 
随机 值 
tf.zeros_initializer 将 变量 设置 为 全 变量 维度 
0 
tf.ones_initializer 将 变量 设置 为 全 变量 维度 
1 


tf.get_variable & Ät 5 tf. ve 函数 最 大 的 区 别 在 于 指定 变量 名 称 的 参 
数 。 对 于 tf.Variable EX Ži, 变量 名 栎 是 一 个 可 选 的 参 数 ， 通 过 
name="v" 的 形式 给 出 。 但 十 是 对 于 站 get_variable 函 数 ， o 、 
填 的 参数 。tt.get_variable 会 会 很 据 这 条 名字 去 创建 或 者 获取 灵 。 在 上 面 
的 样 例 程序 中 ，tt.get_variable 首 先 会 试图 去 创建 一 一 个 名 字 为 的 参数 ， 

如 果 创 建 失 败 (比如 已 经 有 同名 的 参数 ) ， 那 么 这 个 程序 就 会 报错 。 

mags a ae 的 变量 复 用 造成 的 错误 。 比 如 在 定义 神经 网 络 参 
数 时 ， 第 一 层 网 络 的 权重 已 经 叫 weights 了 ， 那 么 在 创建 第 二 层 神 经 网 
络 时 ， RENCE [HRT weights WLS A A INES ER o FENN 
层 神 经 网 络 共用 一 个 权重 会 出 现 一 HE EBORE AAC DL Fa TR ° 如 果 需 要 
通过 tf.get_ variable 获 取 一 个 已 经 创建 的 变 量 ， 需 要 通过 tf.variable _scope 
BR BOR BS EP Ce as, FRAGA EE SEP Ce as , 

tf.get_variable 将 直接 获取 已 经 生成 的 变量 量 。 下 面 给 出 了 一 段 代码 说 明 如 
何 通 过 tf.variable_scope 芳 数 来 控制 tf.get_variable 芳 数 获取 已 经 创建 过 的 


# 在 名 字 为 foo 的 命名 空间 内 创建 名 字 为 v 的 变量 。 
with tf.variable_scope("foo"): 
v = tf.get_variable( 


"v", [1], initializer=tf.constant_initializer(1.0) ) 


# 因为 在 命名 空间 foo 中 已 经 存在 名 字 为 v 的 变量 ， 所 有 下 面 的 代码 将 会 报错 : 


# Variable foo/v already exists, disallowed. Did you mean to 
set reuse=True 


# in VarScope? 


with tf.variable_scope("foo"): 


v = tf.get_variable("v", [1]) 


# 在 生成 上 下 文 管理 器 时 ， 将 参数 reuse 设 置 为 True。 这 样 tf.get_variable 
函数 将 直接 获取 


# 已 经 声明 的 变量 。 
with tf.variable_scope("foo", reuse=True): 
vi = tf.get_variable("v", [1]) 


print v == v1 # 输出 为 True， 代 表 V，VvI 代 表 的 是 相同 的 


TensorFlow 中 变量 。 


# 将 到 -ee tf.variable_scope 将 只 能 获取 已 经 创建 过 的 


# 命名 空间 bar 中 还 没有 创建 变量 v， 所 以 下 面 的 代码 将 会 报错 : 


# Variable bar/v does not exist, disallowed. Did you mean to 
set reuse=None 


# in VarScope? 
with tf.variable_scope("bar", reuse=True): 


v = tf.get_variable("v", [1]) 


上 面 的 样 例 人 简单 地 说 明了 通过 tf.variable_scope EK BX FT LA PE iil 
tf.get_variable WANA IB Lo 4 te ae 参数 reuse=True 
生成 上 下 文 管理 颖 上 时， 这 个 上 下 文 管理 器 内 所 有 的 tf.get_variable 芳 数 会 
直接 获取 已 经 创建 的 变量 。 如 果 变 量 不 存在 ， 则 tt.get_variable 函 数 将 报 
aA; FAR, WR tf.variable_scope ca Bx E FY Z BL reuse=None BY 4 
reuse=False 创 建 上 下 文 管理 器 ，tt.get_variable 操 作 将 创建 新 的 变量 。 如 
果 同 名 的 变量 已 经 存在 ， 则 tf. get_variable Š AC tks ° TensorFlow 中 
tf.variable_scope HH Me HA Lim BW co T MAY Mee T 
tf.variable_scope HŽ ÆT, reuse AXA AE Wl ERY © 


with tf.variable_scope("root"): 


me 


# 可 以 通过 tf .get_variable_scope().reuse 函 数 来 获取 当前 上 下 文 第 
理 器 中 reuse 参 


# 数 的 取 值 。 


A 


print tf.get_variable_scope().reuse HH 
层 reuse 是 False。 


出 False， 即 最 外 


co 


with tf.variable_scope("foo", reuse=True): # DE- NK 


套 的 上 下 文 管理 器 ， 


# 并 指定 reuse 为 True。 


print tf.get variable scope().reuse # 输出 
True ° 
with tf.variable_scope("bar"): # 新 建 一 


PRENE TXEA 


# 不 指定 Feuse， 这 时 reuse 


# 
的 取 值 会 和 外 面 一 层 保持 一 致 。 
print tf.get_variable_scope().reuse # 输出 
True ° 
print tf.get_variable_scope().reuse # 输出 
False。 退 出 reuse 设 置 
# 为 True 的 上 下 文 之 后 
# 


reuse 的 值 又 回 到 了 False。 


tf.variable_scope a 理 器 也 会 创建 一 个 TensorFlow 中 的 
命名 空间 ， 在 命名 空间 内 创建 的 变量 名 称 都 会 带 上 这 个 命名 空间 名 作 
为 前 缀 。 所 以 ，tf.variable_scope 本 数 除了 可 以 控制 tf.get_variable 执 行 的 
功能 之 外 ， 这 个 函数 也 提供 了 一 个 管理 变量 命名 空间 的 方式 "以 下 代 
码 显示 了 如 何 通过 tf.variable piles: 量 的 名 称 。 


vi = tf.get_variable("v", [1]) 


K 


print v1.name # Hvo. “为 变量 的 名 称 ，“: 97 表示 这 


# 的 第 一 个 结果 。 


with tf.variable_scope("foo"): 


v2 = tf.get_variable("v", [1]) 


print v2.name # 输出 foo/v:0。 在 tf.variable _ scope 中 创建 的 
变量 ， 名 称 前 面 会 


# 加 入 命名 空间 的 名 称 ， 并 通过 /来 分 隔 命 名 空间 的 
名 称 和 变量 的 名 称 。 


with tf.variable_scope("foo"): 
with tf.variable_scope("bar"): 
v3 = tf.get_variable("v", [1]) 


print v3.name # fH foo/bar/v:0 ° MZZ lA) A KE, 
同时 变量 的 名 称 也 会 加 


# 入 所 有 命名 空间 的 名 称 作 为 前 级。 


v4 = tf.get_variable("vi", [1]) 


print v4.name # 输出 foo/v1:0。 当 命名 空间 退出 之 后 ， 变 量 


名 称 也 就 不 会 再 被 加 入 


# 其 前 缀 了 。 


# 创建 一 个 名 称 为 空 的 命名 空间 ， 并 设置 Feuse=True。 


with tf.variable_scope("", reuse=True): 


v5 = tf.get_variable("foo/bar/v", [1]) # 可 以 直接 通过 带 
命名 空间 名 称 的 变量 名 


# 来 获取 
其 他 命名 空间 下 的 变量 。 比 如 这 
# 里 通过 
指定 名 称 foo/bar/v 来 获取 在 
# 命名 空 
间 foo/bar/ 中 创建 的 变量 。 
print v5 == v3 # 输出 
True ° 
v6 = tf.get_variable("foo/vi", [1]) 
print v6 == v4 # 输出 
True ° 


iB J tf.variable_scopefitf.get_variable K žk, LA RAGS XTS.2.17) 7 FE 
ATT BU Td Fe FBR RY S T EEE o 


def inference(input_tensor, reuse=False): 


# 定义 第 一 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 


with tf.variable scope('layer1', reuse=reuse): 


# 根据 传 进来 的 reuse 来 判断 是 创建 新 变量 还 是 使 用 已 经 创建 好 的 。 在 
第 一 次 构造 网 


# 络 时 需要 创建 新 的 变量 ， 以 后 每 次 调用 这 个 函数 都 直接 使 用 


reuse=True 就 不 需 


yy 


weights = tf.get_variable("weights", [INPUT_NODE, LA 
YER1_NODE], 


initializer=tf.truncated_normal_initializer(stdd 


ev=0.1)) 
biases = tf.get_variable("biases", [LAYER1_NODE], 
initializer=tf.constant_initializer(0.0)) 
layer1 = tf.nn.relu(tf.matmul(input_tensor, weights) 
+ biases) 


# 类 似 地 定义 第 二 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variable_scope('layer2', reuse=reuse): 


weights = tf.get_variable("weights", [LAYER1_NODE, O 
UTPUT_NODE], 


initializer=tf.truncated_normal_initializer(stdd 
ev=0.1)) 


biases = tf.get_variable("biases", [OUTPUT_NODE], 


initializer=tf.constant_initializer(0.0) ) 


layer2 = tf.matmul(layer1, weights) + biases 


# 返回 最 后 的 前 向 传播 结果 。 


return layer2 


x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x- 
input ' ) 


y = inference(x) 


# 在 程序 中 需要 使 用 训练 好 的 神经 网 络 进行 推导 时 ， 可 以 直接 调用 


inference(new_x, True) ° 


# 如 果 需 要 使 用 滑动 平均 模型 可 以 参考 5 .2 .1 小 节 中 使 用 的 代码 ， 把 计算 滑动 平均 
的 类 传 到 


# inference 函 数 中 即 可 。 获 取 或 者 创建 变量 的 部 分 不 需要 改变 。 
new x =... 


new_y = inference(new_x, True) 


使 用 上 面 这 段 代 码 所 示 的 方式 ， 束 不 再 需要 将 所 有 变量 都 作为 参数 传 
弟 到 不 同 的 画 数 中 了 。 当 神经 网 络 结构 更 加 复杂 、 参 数 更 多 时 ， 使 用 
这 种 变量 管理 的 方式 将 大 大 提高 程序 的 可 读 性 。 


5.4 ”TensorFlow 模 型 持久 化 


在 5.2.1 小 节 中 给 出 的 样 例 代码 在 训练 完成 之 后 就 直接 退出 了 ， 并 没有 
将 训练 得 到 的 模型 保存 下 来 方便 下 次 直接 使 用 。 为 了 让 训练 结 来 可 以 
复 用 ， 需 要 将 训练 得 到 的 神经 网 络 模 型 持久 化 。5.4.1 小 节 将 介绍 通过 
TensorFlow 程 序 来 持久 化 一 个 训练 好 的 模型 ， 并 从 持久 化 之 后 的 模型 文 


件 中 还 原 被 保存 的 模型 。 然 后 5.4.2 小 廊 将 介绍 TensorFlow 持 久 化 的 工作 
原理 和 持久 化 之 后 文件 中 的 数据 格式 。 


5.4.1 持久 化 代码 实现 


TensorFlow 提 供 了 一 个 非常 简单 的 API 来 保存 和 还 原 一 个 神经 网 络 模 
型 。 这 个 API 就 是 tttrain.Saver 类 。 以 下 代码 给 出 了 保存 TensorFlow 计 算 
图 的 方法 。 


import tensorflow as tf 


# 声明 两 个 变量 并 计算 它们 的 和 。 
vi = tf.Variable(tf.constant(1.0, shape=[1]), name="v1") 
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


result = vi + v2 


init_op = tf.initialize_all_variables() 


# 声明 tf.train.Saver 类 用 于 保存 模型 。 


saver = tf.train.Saver() 


with tf.Session() as sess: 


sess.run(init_op) 


# 将 模型 保存 到 /path/to/model/model.ckpt 文 件 。 


saver .save(sess, "/path/to/model/model.ckpt" ) 


上 面 的 代码 实现 了 持久 化 一 个 人 简单 的 TensorFlow 模 型 的 功能 。 在 这 上 段 代 
码 中 ， 通 过 saversave EX 2X Jf TensorFlow 模型 保存 到 
了 path/to/modelmodel.ckpt 文 件 中 。TensorFlow 模 型 一 般 会 存在 后 组 
为 .ckpt 的 文件 中 。 虽 然 上 面 的 程序 只 指定 了 一 个 文件 路 径 ， 但 是 在 这 
个 文件 目录 下 会 出 现 三 个 文件 。 这 是 因为 TensorFlow 会 将 计算 图 的 结构 
和 图 上 参数 取 值 分 开 保 存 。 


上 面 这 段 代 码 会 生成 的 第 一 个 文件 为 model.ckpt.meta， 它 保存 了 
TensorFlow 计 算 图 的 结构 。 第 3 章 中 介绍 过 TensorFlow 计 算 图 的 原理 ， 
这 里 可 以 简单 理解 为 神经 网 络 的 网 络 结构 。 第 二 个 文件 为 model.ckpt， 
这 个 文件 中 保存 了 TensorFlow 程 序 中 每 一 个 变量 的 取 值 。 最 后 一 个 文件 
为 checkpoint 文 件 ， 这 个 文件 中 保存 了 一 个 目录 下 所 有 的 模型 文件 列 
表 。 对 这 些 文件 中 的 具体 内 容 ，5.4.2 小 节 中 将 详细 讲述 。 以 下 代码 中 
给 出 了 加 载 这 个 已 经 保存 的 TensorFlow 模 型 的 方法 。 


import tensorflow as tf 


# 使 用 和 保存 模型 代码 中 一 样 的 方式 来 声明 变量 。 
vi = tf.Variable(tf.constant(1.0, shape=[1]), name="v1") 
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


result = vi + v2 


saver = tf.train.Saver() 


with tf.Session() as sess: 


# 加 载 已 经 保存 的 模型 ， 并 通过 已 经 保存 的 模型 中 变量 的 值 来 计算 加 法 。 
saver.restore(sess, "/path/to/model/model.ckpt" ) 


print sess.run(result) 


这 上 段 加 载 模 型 的 代码 基本 上 和 保存 模型 的 代码 是 一 样 的 。 在 加 载 模 型 
的 程序 中 也 是 先 定义 了 TensorFlow 计 算 图 上 的 所 有 运算 ， 并 声明 了 一 个 
tf.train.Saver 类 。 两 段 代码 唯一 不 同 的 是 ， 在 加 载 模 型 的 代码 中 没有 运 
行 变量 的 初始 化 过 程 ， 而 是 将 变量 的 值 通 过 已 经 保存 的 模型 加 载 进 
来 。 如 果 不 硕 望 重复 定义 图 上 的 运算 ， 也 可 以 直接 加 载 已 经 持久 化 的 
图 。 以 下 代码 给 出 了 一 个 样 例 。 


import tensorflow as tf 


# 直接 加 载 持 久 化 的 图 。 


saver = tf.train.import_meta_graph( 


"/path/to/model/model.ckpt/model.ckpt.meta") 


with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model.ckpt" ) 


# 通过 张 量 的 名 称 来 获取 张 量 。 


print sess.run(tf.get_default_graph().get_tensor_by_name 
("add:0") ) 


# 输出 [ 3.] 


在 上 面 给 出 的 程序 中 ， 默 认 保存 和 加 载 『TensorFlow 计 算 图 上 定义 的 全 
部 变量 。 但 有 时 可 能 只 需要 保存 或 者 加 载 部 分 变量 。 比 如 ， 可 能 有 一 
个 之 前 训练 好 的 五 层 神 经 网 络 模型 ， 但 现在 想 和 尝试 一 个 六 层 的 神经 网 
络 ， 那 么 可 以 将 前 面 五 层 神经 网 络 中 的 参数 直接 加 载 到 新 的 模型 ， 而 
仅仅 将 最 后 一 层 神 经 网 络 重新 训练 。 


为 了 保存 或 者 加 载 部 分 变量 ， 在 声明 tf.train.Saver 类 时 可 以 提供 一 个 列 

表 来 指定 需要 保存 或 者 加 载 的 变量 。 比 如 在 加 载 模型 的 代码 中 使 用 

saver = tf.train.Saver([v1]) 命 令 来 构建 ttrain.Saver 类 ， 那 么 只 有 变量 v1 

pp © 如果 运 行 修改 后 只 加 载 了 v1 的 代码 会 得 到 变量 未 初始 
J 错误: 


tensorflow.python.framework.errors.FailedPreconditionError: 
Attempting to use uninitialized value v2 


因为 v2 没 有 被 加 载 ， 所 以 v2 在 运行 初始 化 之 前 是 没有 值 的 。 除 了 可 以 
选取 需要 被 加 载 的 变量 ，tf.train.Saver 类 也 支持 在 保存 或 者 加 载 时 给 变 
iy 。 下面 给 出 了 一 个 简单 的 样 例 程序 说 明 变 量 重 命名 是 如 何 被 


# 这 里 声明 的 变量 名 称 和 已 经 保存 的 模型 中 变量 的 名 称 不 


ail 
o 


vi = tf.Variable(tf.constant(1.0, shape=[1]), name="other- 
v1") 


v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="other- 
v2") 


# 如 果 直 接 使 用 tf.train.Saver() 来 加 载 模型 会 报 变 量 找 不 到 的 错误 。 下 面 显 
示 了 报错 信息 : 


# tensorflow.python.framework.errors.NotFoundError: Tensor n 
ame "other-v2" 


# not found in checkpoint files /path/to/model/model.ckpt 


# 使 用 一 个 字典 (dictionary) 来 重 命名 变量 可 以 就 可 以 加 载 原 来 的 模型 了 。 这 
个 字典 指定 了 


# 原来 名 称 为 v1 的 变量 现在 加 载 到 变量 v1 中 (名 称 为 other-v1)， 名 称 为 v2 的 变 


a 
# 加 载 到 变量 v2 中 (名 称 为 other-v2)。 


saver = tf.train.Saver({"vi": v1, "v2": v2}) 


在 这 个 程序 中 ， 对 变量 v1 和 v2 的 名 称 进 行 了 修改 。 如 果 直 接 通 过 
tf.train.Saver 默 认 的 构造 函数 来 加 载 保存 的 模型 ， 那 么 程序 会 报 变 量 找 
不 到 的 错误 。 因 为 保存 时 候 变 量 的 名 称 和 加 载 时 变量 的 名 称 不 一 致 。 
为 了 解决 这 个 问题 ，TensorFlow 可 以 通过 字典 (dictionary) 将 模型 保存 
时 的 变量 名 和 需要 加 载 的 变量 联系 起 来 。 


这 样 做 主要 目的 之 一 是 方便 使 用 变量 的 滑动 平均 值 。 在 4.4.3 小 厄 中 介 
绍 了 使 用 变量 的 滑动 平均 值 可 以 让 神经 网 络 模型 更 加 健壮 (robust) ° 
在 TensorFlow 中 ， 每 一 个 变量 的 滑动 平均 值 是 通过 影子 变量 维护 的 ， 所 
以 要 获取 变量 的 滑动 平均 值 实际 上 束 是 获取 这 个 影子 变量 的 取 值 。 如 
末 在 加 载 模型 时 直接 将 影子 变量 映射 到 要 量 目 身 ， 那 么 在 使 用 训练 好 
的 模型 时 就 不 需要 再 调用 函数 来 获取 变量 的 滑动 平均 值 了 。 这 样 大 大 
A o 以 下 代码 给 出 了 一 个 保存 滑动 平均 模型 
S J] o 


import tensorflow as tf 


v = tf.Variable(0, dtype=tf.float32, name="v" 


# 在 没有 申明 滑动 平均 模型 时 只 有 一 个 变量 v， 所 以 下 面 的 语句 只 会 输出 ^v :90”。 
for variables in tf.all_variables(): 

print variables.name 
ema = tf.train.ExponentialMovingAverage(0.99) 


maintain_averages_op = ema.apply(tf.all_variables()) 


# 在 申明 滑动 平均 模型 之 后 ，TensorFlow 会 自动 生成 一 个 影子 变量 


# v/ExponentialMoving Average。 于 是 下 面 的 语句 会 输出 
# “Vv:0”" 和 “v/ExponentialMovingAverage:0”。 
for variables in tf.all_variables(): 


print variables.name 


saver = tf.train.Saver() 
with tf.Session() as sess: 
init_op = tf.initialize_all_variables() 


sess.run(init_op) 


sess.run(tf.assign(v, 10)) 
sess.run(maintain_averages_op) 


# (RENT, TensorFlow tv: Ofilv/ExponentialMovingAverage: 0 
个 变量 都 存 下 来 。 


saver.save(sess, "/path/to/model/model.ckpt" ) 


print sess.run([v, ema.average(v)]) # 输出 
[10.0, 0.099999905] 


以 下 代码 给 出 了 如 何 通过 变量 重 命名 直接 读 取 变量 的 清 动 平均 值 。 从 
下 面 程序 的 输出 可 以 看 出 ， 读 取 的 变量 v 的 值 实际 上 是 上 面 代码 中 变量 
v 的 滑动 平均 值 。 通 过 这 个 方法 ， 融 可 以 使 用 完全 一 样 的 代码 来 计算 请 
动 平均 模型 前 问 传 播 的 结 末 。 


v = tf.Variable(0, dtype=tf.float32, name="v" 


# 通过 变量 重 命名 将 原来 变量 v 的 滑动 平均 值 直接 赋值 给 v 


saver = tf.train.Saver({"v/ExponentialMovingAverage": v}) 
with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model.ckpt" ) 


print sess.run(v) # 输出 0.099999905， 这 个 值 就 是 原来 模型 中 变量 
v 的 滑动 平均 值 。 


为 了 方便 加 载 时 重 命 名 滑动 平均 变量 ， 
tf.train.ExponentialMoving Average X fe ( T variables_to_restore H Š Œ 


成 tttrain.Saver 类 所 需要 的 变量 重 命 名 字典 。 以 下 代码 给 出 了 
variables_to_restore 芳 数 的 使 用 样 例 。 


import tensorflow as tf 


v = tf.Variable(0, dtype=tf.float32, name="v" 


ema = tf.train.ExponentialMovingAverage(0.99) 


# 通过 使 用 variables_to_restore 丙 数 可 以 直接 生成 上 面 代码 中 提供 的 字典 


# {"v/ExponentialMovingAverage": v}° 


# 以 下 代码 会 输出 : 


# {'v/ExponentialMovingAverage': <tensorflow.python.ops.vari 
ables.Variable 


# object at Ox7ff6454ddc10>} 


# 其 中 后 面 的 Variable 类 就 代表 了 变量 v。 


print ema.variables_to_restore() 


saver = tf.train.Saver(ema.variables_to_restore() ) 


with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model.ckpt") 


print sess.run(v) # 输出 0.099999905， 即 原来 模型 中 变量 v 的 滑 


动 平 均值 。 


使 用 tt.train.Saver 会 保存 运行 TensorFlow 程 序 所 需要 的 全 部 信息 ， 然 而 
有 时 并 不 需要 某 些 信息 。 比 如 在 测试 或 者 离线 预测 时 ， 只 需要 知道 如 
何 从 神经 网 络 的 输入 层 经 过 前 问 传 播 计 算得 到 输出 层 即 可 ， 而 不 需要 
类 似 于 变量 初始 化 、 模 型 保存 等 辅助 节点 的 信息 。 在 第 6 章 介 绍 迁 移 学 
习 时 ， 会 遇 到 类 似 的 情况 。 而 且 ， 将 变量 取 值 和 计算 图 结构 分 成 不 同 
的 文件 存储 有 时 候 也 不 方便 ， 于 是 TensorFlow 提 供 了 convert_variables __ 
to_constants 函 数 ， 通 过 这 个 函数 可 以 将 计算 图 中 的 变量 及 其 取 值 通过 
和 常量 的 方式 保存 ， 这 样 整 个 TensorFlow 计 算 图 可 以 统一 存放 在 一 个 文件 
中 。 下 面 的 程序 提供 了 一 个 样 例 。 


import tensorflow as tf 


from tensorflow.python.framework import graph_util 


vi = tf.Variable(tf.constant(1.0, shape=[1]), name="v1i") 


v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


result = vi + v2 


init_op = tf.initialize_all_variables() 


with tf.Session() as sess: 


sess.run(init_op) 


# 导出 当前 计算 图 的 GraphDef 部 分 ， 只 需要 这 一 部 分 就 可 以 完成 从 输入 层 到 
j 层 的 计算 


set 
=> 
EE 


# 过 程 。 


graph_def = tf.get_default_graph().as_graph_def() 


# 将 图 中 的 变量 及 其 取 值 转化 为 常量 ， 同 时 将 图 中 不 必要 的 节点 去 掉 。 在 
5.4.2 人 小节 中 将 会 看 


# 到 一 些 系统 运算 也 会 被 转化 为 计算 图 中 的 节点 (比如 变量 初始 化 操作 )。 如 果 
只 关心 程序 中 定 


# 义 的 某 些 计 算 时 ， 和 这 些 计算 无 关 的 节点 就 没有 必要 导出 并 保存 了 。 在 下 面 
一 行 代码 中 ， 最 


# 后 一 个 参数 ['add ' ] 给 出 了 需要 保存 的 节点 名 称 。add 点 是 上 面 定义 的 两 
个 变量 相 加 的 


# 操作 。 注 意 这 里 给 出 的 是 计算 节点 的 名 称 ， 所 以 没有 后 面 的 :9 2 。 


output_graph_def = graph_util.convert_variables_to_consta 
nts( 


sess, graph_def, ['add']) 
# 将 导出 的 模型 存 入 文件 。 


with tf.gfile.GFile("/path/to/model/combined_model.pb", " 
wb") as f: 


f.write(output_graph_def.SerializeToString() ) 
通过 下 面 的 程序 可 以 直接 计算 定义 的 加 法 运算 的 结果 。 当 只 需要 得 到 


计算 图 中 某 个 世 点 的 取 值 时 ， 这 提供 了 一 个 更 加 方便 的 方法 。 第 6 章 将 
使 用 这 种 方法 来 使 用 训练 好 的 模型 完成 迁移 学 习 。 


import tensorflow as tf 


from tensorflow.python.platform import gfile 


with tf.Session() as sess: 
model_filename = "/path/to/model/combined_model.pb" 


# 读 取 保存 的 模型 文件 ， 并 将 文件 解析 成 对 应 的 
GraphDef Protocol Buffer ° 


with gfile.FastGFile(model_filename, 'rb') as f: 
graph_def = tf.GraphDef() 


graph_def .ParseFromString(f.read()) 


# 将 graph_def 中 保存 的 图 加 载 到 当前 的 图 中 。return elements= 
["add:9"] 给 出 了 返回 


# 的 张 量 的 名 称 。 在 保存 的 时 候 给 出 的 是 计算 节点 的 名 称 ， 所 以 为 “add”。 在 
加 载 的 时 候 给 出 


# 的 是 张 量 的 名 称 ， 所 以 是 add:0。 


result = tf.import_graph_def(graph_def, return_elements= 
["add:0"]) 


print sess.run(result ) 


5.4.2 ”持久 化 原理 及 数据 格式 


5.4.1 小 节 介 绍 了 当 调 用 saversave 函 数 时 ，TensorFlow 程 序 会 上 自动 生成 3 
个 文件 。TensorFlow 模 型 的 持久 化 天 是 通过 这 3 个 文件 完成 的 。 这 一 小 
忆 将 详细 介绍 这 3 个 文件 中 保存 的 内 容 以 及 数据 格式 。 在 具体 介绍 每 一 
个 文件 之 前 ， 先 简单 回顾 一 下 第 3 章 中 介绍 过 的 TensorFlow 的 一 些 基 本 
概念 。TensorFlow 是 一 个 通过 图 的 形式 来 表述 计算 的 编程 系统 ， 
TensorFlow 程 序 中 的 所 有 计算 都 会 被 表达 为 计算 图 上 的 节点 。 
TensorFlow 通 过 元 图 (MetaGraph) 来 记录 计算 图 中 节点 的 信息 以 及 运 
行 计算 图 中 节点 所 需要 的 元 数据 。TensorFlow 中 元 图 是 由 MetaGraphDef 
Protocol Buffer 定 义 的 备 。MetaGraphDef 中 的 内 容 束 构成 了 TensorFlow 持 
久 化 时 的 第 一 个 文件 。 以 下 代码 给 出 了 MetaGraphDef 类 型 的 定义 。 


message MetaGraphDef { 


MetaInfoDef meta info def = 1; 


GraphDef graph_def = 2; 


SaverDef saver_def = 3; 


map>string, CollectionDef> collection_def = 4; 


map>string, SignatureDef> signature_def = 5; 


从 上 面 的 代码 中 可 以 看 到 ， 元 图 中 主要 记录 了 5 类 人 信息。 下面 的 篇 幅 将 
结合 5.4.1 小 届 中 变量 相 加 样 例 的 持久 化 结果 ， 了 逐 一 介绍 MetaGraphDef 
类 型 的 每 一 个 属性 中 存储 的 信息 。 保 存 MetaGraphDef 信 息 的 文件 默认 
以 .meta 为 后 缀 名 ， 在 5.4.1 人 小 万 的 样 例 中 ， 文 件 model.ckpt.meta 中 存储 的 
束 古 元 图 的 数据 。 直 接 运 行 5.4.1 小 市 样 例 得 到 的 是 一 个 二 进 制 文件 ， 


无 法 直接 查看 。 为 了 方便 调试 ，TensorFlow 提 供 了 export_meta_graph 函 
BX, I PREM IRL json tix = tt) MetaGraphDef Protocol Buffer。 以 下 
代码 展示 了 如 何 使 用 这 个 函数 。 


import tensorflow as tf 


# 定义 变量 相 加 的 计算 。 
vi = tf.Variable(tf.constant(1.0, shape=[1]), name="v1i") 
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


resulti = vi + v2 


saver = tf.train.Saver() 


# 通过 export_meta_graph 函 数 导出 TensorFlow 计 算 图 的 元 图 ， 并 保存 为 
json 格 式 。 


saver.export_meta_graph("/path/to/model.ckpt.meda.json", as 
_text=True) 


通过 上 面 给 出 的 代码 ， 可 以 将 5.4.1 小 下 中 的 计算 图 元 图 以 json 的 格式 导 
出 并 存储 在 modelckptmetajson 文件 中 。 下 文 将 结合 
model.ckpt.meta.json 文 件 具 体 介绍 TensorFlow 元 图 中 存储 的 信息 。 


meta_info_def 属 性 
meta_info_def 属 性 是 通过 MetaInfoDef 定 义 的 ， 它 记录 TensorFlow 计 算 


图 中 的 元 数据 以 及 TensorFlow 程 序 中 所 有 使 用 到 的 运算 方法 的 信息 。 下 
面 是 MetaInfoDef Protocol Buffer 的 定义 : 


message MetaInfoDef { 


string meta_graph_version = 1; 


OpList stripped_op_list = 2; 


google.protobuf.Any any_info = 3; 


repeated string tags = 4; 


TensorFlow 计 算 图 的 元 数据 包括 了 计算 图 的 版 本 号 (meta_graph_version 
属性 ) 以 及 用 户 指 定 的 一 些 标签 (tags 属 性 )。 如 果 没 有 在 saver 中 特殊 指 
定 ， 那 么 这 些 属 性 都 默认 为 空 。 在 model.ckptmetajson 文 件 中 ， 
meta_info_def 属性 里 只 有 stripped opjlist 属 性 是 不 为 空 的 。 
stripped_op_list 属 性 记录 了 TensorFlow 计 算 图 上 使 用 到 的 所 有 运算 方法 
的 信息 。 注 意 stripped_op_list 属 性 保存 的 是 TensorFlow 运 算 方 法 的 信 
息 ， 所 以 如 果菜 一 个 运算 在 TensorFlow 计 算 图 中 出 现 了 多 次 ， 那 么 在 
stripped_op_list 也 只 会 出 现 一 次 。 比 如 在 model.ckpt.meta.json 文 件 的 
stripped_op_list 属 性 中 只 有 一 个 Variable 运 算 ， 但 这 个 运算 在 程序 中 被 使 
用 了 两 次 。stripped_op_list 属 性 的 类 型 是 OpList。OpList 类 型 是 一 个 
OpDef 类 型 的 列表 ， 以 下 代码 给 出 了 OpDef 类 型 的 定义 : 


message OpDef { 
string name = 1; 
repeated ArgDef input_arg = 2; 
repeated ArgDef output_arg = 3; 


repeated AttrDef attr = 4; 


string summary = 5; 
string description = 6; 


OpDeprecation deprecation = 8; 


bool is_commutative = 18; 

bool is_aggregate = 16 

bool is_stateful = 17; 

bool allows_uninitialized_input = 19; 


ia 


OpDef 类 型 中 前 四 个 属性 定义 了 一 个 运算 最 核心 的 信息 。OpDef 中 的 第 
一 个 属性 name 定 义 了 运算 的 名 称 ， 这 也 是 一 个 运算 唯一 的 标识 符 。 在 
TensorFlow 计 算 图 元 图 的 其 他 属性 中 ， 比 如 下 面 将 要 介绍 的 GraphDef 属 
性 ， 将 通过 运算 名 称 来 引用 不 同 的 运算 。OpDef 的 第 二 和 第 三 个 属性 为 
input_arg 和 output_arg， 它 们 定义 了 运算 的 输入 和 输出 。 因 为 输入 输出 
都 可 以 有 多 个 ， 所 以 这 两 个 属性 都 是 列表 (repeated) 。 第 四 个 属性 attr 
给 出 了 其 他 的 运算 参数 信息 。 在 model.ckpt.meta.json 文 件 中 忌 共 定义 了 
Po 下 面 将 给 出 比较 有 代表 性 的 一 个 运算 来 辅助 说 明 OpDef 的 数 


op { 


name: "Add" 


上 上面 给 出 了 名 称 为 Add 的 运算 。 这 个 运算 有 2 个 输入 和 1 个 输出 ， 输 入 输 

出 属性 都 指定 了 属性 type_attr， 并 且 这 个 属性 的 值 为 T。 在 OpDef 的 attr 
属性 中 ， 必 须要 出 现 名 称 (name) 为 T 的 属性 。 以 上 样 例 中 ， 这 个 属性 
指定 了 运算 输入 输出 允许 的 参数 类 型 (allowed_values) ° 


graph_def 属 性 


graph_def 属 性 主要 记录 了 TensorFlow 计 算 图 上 的 节点 信息 。TensorFlow 
计算 图 的 每 一 个 节点 对 应 了 TensorFlow 程 序 中 的 一 个 运算 。 因 为 在 
meta_info_def 属 性 中 已 经 包含 了 所 有 运算 的 具体 信息 ， 所 以 graph_def 属 
性 只 天 注 运 算 的 连接 结构 。graph_def 属 性 是 通过 GraphDef Protocol 
Buffer 定 义 的 ，GraphDef 主 要 包 舍 了 一 个 NodeDef 类 型 的 列表 。 以 下 代 
码 给 出 了 GraphDef 和 NodeDef 类 型 中 包含 的 信息 : 


message GraphDef { 
repeated NodeDef node = 1; 


VersionDef versions = 4; 


i 


message NodeDef { 
string name = 1; 
string op = 2; 
repeated string input = 3; 
string device = 4; 
map<string, AttrValue> attr = 5; 


ha 


GraphDef 中 的 versions 属 性 比较 简单 ， 它 主要 存储 了 TensorFlow 的 版 本 
号 。GraphDef 的 主要 信息 都 存在 node 属 性 中 ， 它 记录 了 TensorFlow 计 算 
图 上 所 有 的 方 点 信息 。 和 其 他 属性 类 似 ，NodeDef 类 型 中 有 一 个 名 称 属 
性 name， 它 是 一 个 节点 的 唯一 标识 符 。 在 TensorFlow 程 序 中 可 以 通过 
节点 的 名 称 来 获取 相应 的 节点 。NodeDef 类 型 中 的 op 属性 给 出 了 该 节点 
使 用 的 TensorFlow 运 算 方 法 的 名 称 ， 通 过 这 个 名 称 可 以 在 TensorFlow 计 
算 图 元 图 的 meta_info_def 属 性 中 找到 该 运算 的 具体 信息 。 


NodeDef 类 型 中 的 input 属 性 是 一 个 字符 串 列表 ， 它 定义 了 运算 的 输入 。 
input 属 性 中 每 个 字符 串 的 取 值 格式 为 node:src_output， 其 中 node 部 分 给 
出 了 一 个 节点 的 名 称 ，src_output 部 分 表明 了 这 个 输入 是 指定 和 点 的 第 
几 个 输出 。 当 src_output 为 0 时 ， 可 以 省 略 :src_output 这 个 部 分 。 比 如 
node:0 表 示 名 称 为 node 的 节点 的 第 一 个 输出 ， 它 也 可 以 被 记 为 node 。 


NodeDef 类 型 中 的 device 属 性 指定 了 处 理 这 个 运算 的 设备 。 运 行 
TensorFlow 运 算 的 设备 可 以 是 本 地 机 器 的 CPU 或 者 GPU， 也 可 以 是 一 合 
远程 的 机 器 CPU 或 者 GPU。 第 10 章 将 具体 介绍 如 何 指定 运行 TensorFlow 
运算 的 设备 。 当 device 属 性 为 空 时 ，TensorFlow 在 运行 时 会 目 动 选取 一 
个 最 合适 的 设备 来 运行 这 个 运算 。 最 后 NodeDef 类 型 中 的 attr 必 性 指定 
了 和 当前 运算 相关 的 配置 信息 。 下 面 列 举 了 model.ckpt.meta.json 文 件 中 
的 一 些 计算 太 点 来 更 加 具体 地 介绍 graph_def 属 性 。 


node { 
name: "add" 
op: "Add" 
input: "vi/read" 


input: "v2/read" 


} 
node { 
name: "save/control dependency" 


op: "Identity" 


} 
versions { 


producer: 9 


上 面 给 出 了 model.ckpt.meta.json 文 件 中 graph_def 属 性 里 比较 有 代表 性 的 
几 个 节点 。 第 一 个 节点 给 出 的 是 变量 定义 的 运算 。 在 TensorFlow 中 变量 
定义 也 是 一 个 运算 ， 这 个 运算 的 名 称 为 vil(name: "v1")， 运 算 方 法 的 名 
称 为 Variable(op: "Variable")。 定 义 变 量 的 运算 可 以 有 很 多 个 ， 于 是 在 


NodeDef 类 型 的 node 属 性 中 可 以 有 多 个 变量 定义 的 节点 。 但 定义 变量 的 
运算 方法 只 用 到 了 一 个 ， 于 是 在 MetaInfoDef 类 型 的 stripped_op_list 属 性 
中 只 有 一 个 名 称 为 Variable 的 运算 方法 。 除 了 指定 计算 图 中 节点 的 名 称 
和 运算 方法 ，NodeDef 类 型 中 还 定义 了 运算 相关 的 属性 。 在 方 点 v1 中 ， 
attr 属 性 指定 了 这 个 变量 的 维度 以 及 类 型 。 


给 出 的 第 二 个 下 点 是 代表 加 法 运算 的 和 点 。 它 指定 了 2 个 输入 ， 一 个 为 
vi/read, 另 一 个 为 v2/read。 其 中 vl/read 代 表 的 和 点 可 以 读 取 变 量 v1 的 
值 。 因 为 v1 的 值 是 方 点 v1/read 的 第 一 个 输出 ， 所 以 后 面 的 :0 就 可 以 省 略 
了 。v2/read 也 类 似 的 代表 了 变量 v2 的 取 值 。 以 上 样 例文 件 中 给 出 的 最 
后 一 个 名 称 为 save/control dependency ， 该 和 点 是 系统 在 完成 
TensorFlow 模 型 持久 化 过 程 中 自动 生成 的 一 个 运算 。 在 样 例文 件 的 最 
后 ， 属 性 versions 给 出 了 生成 model.ckpt.meta.json 文件 时 使 用 的 
TensorFlow 版 本 号 。 


saver_def 属 性 
saver_def 属 性 中 记录 了 持久 化 模型 时 需要 用 到 的 一 些 参数 ， 比 如 保存 


到 文件 的 文件 名 、 保 存 操作 和 加 载 操作 的 名 称 以 及 保存 频率 、 清 理 历 
史记 录 等 。saver_def 属 性 的 类 型 为 SaverDef， 其 定义 如 下 。 


message SaverDef { 
string filename_tensor_name = 1; 
string save_tensor_name = 2; 
string restore_op_name = 3; 
int32 max_to_keep = 4; 
bool sharded = 5; 


float keep_checkpoint_every_n_hours = 6; 


enum CheckpointFormatVersion { 


LEGACY = 0; 
vi 1 
(=a 


CheckpointFormatVersion version = 7; 


下 面 给 出 了 model.ckpt.meta.json 文 件 中 saver_def 属 性 的 内 容 。 


saver_def { 
filename_tensor_name: "save/Const:0" 
save_tensor_name: "save/control_dependency:0" 
restore_op_name: "save/restore_all" 
max_to_keep: 5 


keep_checkpoint_every_n_hours: 10000.0 


filename_tensor_name 属 性 给 出 了 保存 文件 名 的 张 量 名 称 ， 这 个 张 量 整 
是 闻 点 save/Const 的 第 一 个 输出 。save_tensor name 属 性 给 出 了 持久 化 
TensorFlow 模 型 的 运算 所 对 应 的 节点 名 称 。 从 上 面 的 文件 中 可 以 看 出 ， 


+H 
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和 持久 化 TensorFlow 模 型 运算 对 应 的 是 加 载 TensorFlow 模 型 的 运算 ， 这 
个 运算 的 名 称 由 restore_ op_name 属 性 指定 。max_to_keep 属 性 和 
keep_checkpoint_every_n_hours 属 性 设 定 了 tf.train.Saver 类 清理 之 前 保存 
的 模型 的 策略 。 比 如 当 max to keep 为 5 的 时 候 ， 在 第 六 次 调用 
saver.save 上 时， 第 一 次 保存 的 模型 就 会 修 目 动 删 除 。 通 过 设置 
keep_checkpoint_every_n_hours, fn 小 时 可 以 在 max_to_keep 的 基础 上 
多 你 存 一 个 模型 。 


collection_def 属 性 


在 TensorFlow 的 计算 图 (tf.Graph) 中 可 以 维护 不 同 集 合 ， 而 维护 这 些 集 合 
的 压 层 实现 就 是 通过 collection_def 这 个 属性 。collection_def 属 性 是 一 个 
从 集合 名 称 到 集合 内 容 的 映射 ， 其 中 集合 名 称 为 字符 串 ， 而 集合 内 容 
为 CollectionDef Protocol Buffer。 以 下 代码 给 出 了 CollectionDef 类 型 的 定 
DA o 


message CollectionDef { 


message NodeList { 


repeated string value = 1; 


message BytesList { 


repeated bytes value = 1; 


message Int64List { 


repeated int64 value = 1 [packed = true]; 


message FloatList { 


repeated float value = 1 [packed = true]; 


message AnyList { 


repeated google.protobuf.Any value = 1; 


oneof kind { 


NodeList node_list = 1; 


BytesList bytes_list = 2; 
Int64List int64_list = 3; 
FloatList float_list = 4; 


AnyList any_list = 5; 


通过 上 面 的 定义 可 以 看 出 ，TensorFlow 计 算 图 上 的 集合 主要 可 以 维护 4 
类 不 同 的 集合 。NodeList 用 于 维护 计算 图 上 列 点 的 集合 。BytesList 可 以 
维护 字符 串 或 者 系列 化 之 后 的 Procotol Buffer 的 集合 。 比 如 张 量 是 通过 
Protocol Buffer 表 示 的 ， 而 张 量 的 集合 是 通过 BytesList 维 护 的 ， 我 们 将 
在 model.ckpt.meta.json 文 件 中 看 到 具体 样 例 。Int64List 用 于 维护 整数 集 
合 ，FloatList 用 于 维护 实数 集合 。 下 面 给 出 了 model.ckpt.meta.json 文 件 
中 collection_def 属 性 的 内 容 。 


collection def { 
key: "trainable variables" 
value { 
bytes_list { 
value: "\n\004v1:0\022\tv1/Assign\032\tvi/read:0" 


value: "\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 


} 

collection def { 
key: "variables" 
value { 


bytes_list { 


value: "\n\004v1:0\022\tv1/Assign\032\tvi/read:0" 


value: "\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 


从 上 面 的 文件 可 以 看 出 样 例 程序 中 维护 了 两 个 集合 。 一 个 是 所 有 变量 
的 集合 ， 这 个 集合 的 名 称 为 variables。 男 外 一 个 是 可 训练 变量 的 集合 ， 
名 为 trainable_variables。 在 样 例 程序 中 ， 这 两 个 集合 中 的 元 素 是 一 样 
的 ， 都 是 变量 v1 和 v2。 它 们 都 是 系统 目 动 维护 的 &。 


通过 对 MetaGraphDef 类 型 中 主要 属性 的 讲解 ， 本 小 节 已 经 介绍 了 
TensorFlow 模 型 持久 化 得 到 的 第 一 个 文件 中 的 内 容 。 除 了 持久 化 
TensorFlow 计 算 图 的 结构 ， 持 久 化 TensorFlow 中 变量 的 取 值 也 是 非常 重 
要 的 一 个 部 分 。5.4.1 小 方 中 使 用 tf.Saver 得 到 的 model.ckpt 文 件 就 保存 了 
所 有 变量 的 取 值 。 这 个 文件 是 通过 SSTable 格 式 存储 的 ， 可 以 大 人 致 理解 
为 就 是 一 个 (key，value) 列表 。 


model.ckpt 文 件 中 列表 的 第 一 行 描述 了 文件 的 元 信息 ， 比 如 在 这 个 文件 
中 存储 的 变量 列表 。 列 表 剩 下 的 每 一 行 保 存 了 一 个 变量 的 片段 ， 变 量 
片段 的 信息 是 通过 SavedSlice Protocol Buffer 定 义 的 。SavedSlice 类 型 中 
保存 了 变量 的 名 称 、 当 前 片段 的 信息 以 及 变量 取 值 。TensroFlow 提 供 了 
tf.train.NewCheckpointReader 类 来 查看 model.ckpt 文 件 中 保存 的 变量 信 
息 。 以 下 代码 展示 了 如 何 使 用 tf.train.NewCheckpointReader 类 。 


import tensorflow as tf 


# tf.train.NewCheckpointReader 可 以 读 取 checkpoint 文 件 中 保存 的 所 有 


be] 


aR 


bal 


reader = tf.train.NewCheckpointReader ('/path/to/model/model. 
ckpt' ) 


# 获取 所 有 变量 列表 。 这 个 是 一 个 从 变量 名 到 变量 维度 的 字典 。 


all_variables = reader.get_variable_to_shape_map() 
for variable_name in all_variables: 


# variable_name 为 变量 名 称 ，all_variables[variable_name] 为 变 


量 的 维度 。 


print variable_name, all_variables[variable_name] 


# 获取 名 称 为 vV1 的 变量 的 取 值 。 


print "Value for variable vi is ", reader.get_tensor("vi") 


这 个 程序 将 输出 : 


人 | 


v1 [1] # 变量 v1 的 
维度 为 [1] ° 


v2 [1] # 变量 v2 的 
维度 为 [1] 。 


Value for variable vi is [ 1.] # 变量 v1 的 取 值 为 
1 o 


最 后 一 个 文件 的 名 字 是 固定 的 ， 叫 checkpoint。 这 个 文件 是 tf.train.Saver 
类 自动 生成 且 自 动 维护 的 。 在 checkpoint 文 件 中 维护 了 由 一 个 
tf.train.Saver 类 持久 化 的 所 有 TensorFlow 模 型 文件 的 文件 名 。 当 某 个 保 
存 的 TensorFlow 模 型 文件 被 删除 时 ， 这 个 模型 所 对 应 的 文件 名 也 会 从 
checkpoint 文件 中 删除 。checkpoint 中 内 容 的 格式 为 CheckpointState 
Protocol Buffer， 下 面 给 出 了 CheckpointState 类 型 的 定义 。 


message CheckpointState { 
string model_checkpoint_path = 1; 


repeated string all_model_checkpoint_paths = 2; 


model_checkpoint_path 属 性 你 存 了 最 新 的 TensorFlow 模 型 文件 的 文件 
名 。all_model_checkpoint_paths 属 性 列 出 了 当前 还 没有 被 删除 的 所 有 
TensorFlow 模 型 文件 的 文件 名 。 下 面 给 出 了 通过 5.4.1 广 中 样 例 程序 生成 
的 checkpoint 文 件 。 


model_checkpoint_path: "/path/to/model/model.ckpt" 


all_model_checkpoint_paths: "/path/to/model/model.ckpt" 


5.5 ”TensorFlow 最 佳 实 践 样 例 程 序 


在 5.2.1 小 节 中 已 经 给 出 了 一 个 完整 的 TensorFlow 程 序 来 解决 MNIST 问 
题 。 然 而 这 个 程序 的 可 扩展 性 并 不 好 。 如 在 5.3 节 中 提 到 的 ， 计 算 前 向 


传播 的 函数 需要 将 所 有 变量 都 传 入 ， 当 神经 网 络 的 结构 变 得 更 加 复 
杂 、 参 数 更 多 时 ， 程 序 可 读 性 会 变 得 非常 差 。 而 且 这 种 方式 会 导致 程 
序 中 有 大 量 的 见 余 代码 ， 降 低 编 程 的 效率 。5.2.1 小 节 给 出 的 程序 的 另 
外 一 个 问题 是 没有 持久 化 训练 好 的 模型 。 当 程序 退出 时 ， 训 练 好 的 模 
型 也 束 被 无 法 再 使 用 了 ， 这 导致 得 到 的 模型 无 法 和 梓 重 用 。 更 严重 的 问 
题 是 ， 一 般 神 经 网 络 模型 训练 的 时 间 都 比较 长 ， 少 则 几 个 小 时 ， 多 则 
几 天 甚至 儿 周 。 如 采 在 训练 过 程 中 程序 死机 了 ， 那 么 没有 保存 训练 的 
中 间 结 采 会 浪 费 大 量 的 时 间 和 资源 。 所 以 ， 在 训练 的 过 程 中 需要 每 隔 
一 段 时 间 保存 一 次 模型 训练 的 中 间 结 采 。 


结合 5.3 廊 中 介绍 的 变量 管理 机 制 和 5.4 广 中 介绍 的 TensorFlow 模 型 持久 
化 机 制 ， 本 节 中 将 介绍 一 个 TensorFlow 训 练 神经 网 络 模型 的 最 佳 实践 。 
将 训练 和 测试 分 成 两 个 独立 的 程序 ， 这 可 以 使 得 每 一 个 组 件 更 加 灵 
活 。 比 如 训练 神经 网 络 的 程序 可 以 持续 输出 训练 好 的 模型 ， 而 测试 程 
序 可 以 每 隔 一 段 时 间 检 验 最 新 模型 的 正确 率 ， 如 果 模 型 效果 更 好 ， 则 
将 这 个 模型 提供 给 产品 使 用 。 除 了 将 不 同 功能 模块 分 开 ， 本 万 还 将 前 
回 传 播 的 过 程 抽 象 成 一 个 单独 的 库 函 数 。 因 为 神经 网 络 的 前 同 传播 过 
程 在 训练 和 测试 的 过 程 中 都 会 用 到 ， 所 以 通过 库 函 数 的 方式 使 用 起 来 
ae 又 可 以 保证 训练 和 测试 过 程 中 使 用 的 前 辣 传 播 方 法 
一 定 是 一 致 的 。 


本 节 将 提供 重 构 之 后 的 程序 来 解决 MNIST 问 题 。 重 构 之 后 的 代码 将 会 
被 拆 成 3 个 程序 ， 第 一 个 是 mnist_inference.py， 它 定义 了 前 问 传 播 的 过 
程 以 及 神经 网 络 中 的 参数 。 第 二 个 是 mnist_train.py， 它 定义 了 神经 网 络 
的 训练 过 程 。 第 三 个 是 mnist_eval.py， 它 定义 了 测试 过 程 。 以 下 代码 给 
出 了 mnist_inference.py 中 的 内 容 。 


# -*- Coding: utf-8 -*- 


import tensorflow as tf 


# 定义 神经 网 络 结构 相关 的 参数 。 


INPUT_NODE = 784 


OUTPUT_NODE 


10 


LAYER1 NODE = 500 


# 通过 tf.get_variable 范 数 来 获取 变量 。 在 训练 神经 网 络 时 会 创建 这 些 变量 ; 
在 测试 时 会 通 


# 过 保存 的 模型 加 载 这 些 变量 的 取 值 。 而 且 更 加 方便 的 是 ， 因 为 可 以 在 变量 加 载 时 
将 滑动 平均 变量 


# — eae 所 以 可 以 直接 通过 同样 的 名 字 在 训练 时 使 用 变量 自身 ， 而 在 测试 时 使 用 


# 均值 。 在 这 个 函数 中 也 会 将 变量 的 正则 化 损失 加 入 损失 集合 。 
def get_weight_variable(shape, regularizer): 
weights = tf.get_variable( 
"weights", shape, 


initializer=tf.truncated_normal_initializer(stddev=0 


TD 


# Sa FENCE RY, ARS IEMA A 4 F Alosses 
的 集合 。 在 这 里 


# 使 用 了 add_to_collection 函 数 将 一 个 张 量 加 入 一 个 集合 ， 而 这 个 集合 的 
名 称 为 losses。 


# 这 是 自 定义 的 集合 ， 不 在 TensorFlow 自 动 管理 的 集合 列表 中 。 


if regularizer != None: 


tf.add_to_collection('losses', regularizer(weights) ) 


return weights 


# 定义 神经 网 络 的 前 向 传播 过 程 。 


def inference(input_tensor, regularizer): 


# 声明 第 一 层 神经 网 络 的 变量 并 完成 前 向 传播 过 程 。 
with tf.variable_scope('layer1'): 


# 这 里 通过 tf.get_variable 或 tf.Variable 没 有 本 质 区 别 ， 因 为 在 
训练 或 是 测试 中 


# 没有 在 同一 个 程序 中 多 次 调用 这 个 函数 。 如 果 在 同一 个 程序 中 多 次 调 
用 ， 在 第 一 次 调用 


# 之 后 需要 将 Feuse 参 数 设置 为 True。 
weights = get_weight_variable( 
[INPUT_NODE, LAYER1_NODE], regularizer) 
biases = tf.get_variable( 
"biases", [LAYER1_NODE], 
initializer=tf.constant_initializer(0.0) ) 


layer1 = tf.nn.relu(tf.matmul(input_tensor, weights) + 
biases) 


# 类 似 的 声明 第 二 层 神 经 网 络 的 变量 并 完成 前 向 传播 过 程 。 


with tf.variable_scope('layer2'): 


weights = get_weight_variable( 


[LAYER1_NODE, OUTPUT_NODE], regularizer) 


biases = tf.get_variable( 


"biases", [OUTPUT_NODE], 


initializer=tf.constant_initializer(0.0) ) 


layer2 = tf.matmul(layeri, weights) + biases 


# 返回 最 后 前 向 传播 的 结果 。 


return layer2 


在 这 上段 代码 中 定 了 神经 网 络 的 前 癌 传 播 算 法 。 无 论 是 训练 时 还 是 测试 
时 ， 都 可 以 直接 调用 inference 这 个 函数 ， 而 不 用 关心 具体 的 神经 网 络 结 
构 。 使 用 定义 好 的 前 向 传播 过 程 ， 以 下 代码 给 出 了 神经 网 络 的 训练 程 
F¥mnist_train.py ° 


-*- coding: utf-8 -*- 


import os 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data 
# 加 载 mnist_inference.py 中 定义 的 常量 和 前 向 传播 的 函数 。 


import mnist_inference 


# 配置 神经 网 络 的 参数 。 

BATCH_SIZE = 100 

LEARNING_RATE_BASE = 0.8 

LEARNING _RATE_DECAY = 0.99 
REGULARAZTION_RATE = 0.0001 
TRAINING_STEPS = 30000 
MOVING_AVERAGE_DECAY = 0.99 

# 模型 保存 的 路 径 和 文件 名 。 
MODEL_SAVE_PATH = "/path/to/model/" 


MODEL_NAME = "model.ckpt" 


def train(mnist): 
# 定义 输入 输出 placeholder。 


x = tf.placeholder ( 


tf.float32, [None, mnist_inference.INPUT_NODE], name 
='x-input') 


y_ = tf.placeholder ( 


tf.float32, [None, mnist_inference.OUTPUT_NODE], nam 
e='y-input' ) 


regularizer = tf.contrib.layers.12_regularizer (REGULARAZT 
ION_RATE) 


# 直接 使 用 mnist_inference.py 中 定义 的 前 向 传播 过 程 。 
y = mnist_inference.inference(x, regularizer) 
global_step = tf.Variable(0, trainable=False) 


# 和 5.2.1 小 节 样 例 中 类 似 地 定义 损失 函数 、 学 习 率 、 滑 动 平 均 操 作 以 及 训练 


variable_averages = tf.train.ExponentialMovingAverage( 


MOVING_AVERAGE_DECAY, global_step) 


variables_averages_op = variable_averages.apply( 


tf.trainable_variables() ) 


cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_l 
ogits( 


y, tf.argmax(y_, 1)) 


cross_entropy_mean = tf.reduce_mean(cross_entropy) 


loss = cross_entropy_mean + tf.add_n(tf.get_collection('l 
osses')) 


learning_rate = tf.train.exponential_decay( 


LEARNING_RATE_BASE, 


global_step, 


mnist.train.num_examples / BATCH_SIZE, 


LEARNING_RATE_DECAY) 


train_step = tf.train.GradientDescentOptimizer (learning_r 
ate)\ 


.minimize(loss, global_step=global_ste 
p) 


with tf.control dependencies([train step, variables avera 
ges_op]): 


train_op = tf.no_op(name='train' ) 
# 初始 化 TensorFlow 持 久 化 类 。 
saver = tf.train.Saver() 
with tf.Session() as sess: 


tf.initialize_all_variables().run() 


# 在 训练 过 程 中 不 再 测试 模型 在 验证 数据 上 的 表现 ， 验 证 和 测试 的 过 程 


将 会 有 一 个 独 
# 立 的 程序 来 完成 。 
for i in range(TRAINING_STEPS): 
xs, yS = mnist.train.next_batch(BATCH_SIZE) 


_, loss_value, step = sess.run([train_op, loss, g 
lobal_step], 


feed dict 
={x: xs, y_: ys}) 


# 每 1000 轮 保存 一 次 模型 。 


if i % 1000 == 


# 输出 当前 的 训练 情况 。 这 里 只 输出 了 模型 在 当前 训练 
batch 上 的 损失 画 
# 数 大 小 。 通 过 损失 函数 的 大 小 可 以 大 概 了 解 训练 的 情 
况 。 在 验证 数据 集 上 的 
# 正确 率 信息 会 有 一 个 单独 的 程序 来 生成 。 
print("After %d training step(s), loss on 
training " 
"batch is %g." % (step, loss_value) 
) 


# 保存 当前 的 模型 。 注 意 这 里 给 出 了 global_step 参 


数 ， 这 样 可 以 让 每 个 被 


# 保存 模型 的 文件 名 末尾 加 上 训练 的 轮 数 ， 比 


hii“model.ckpt-1000” #75 
# 训练 1000 轮 之 后 得 到 的 模型 
saver .save( 


sess, Os.path.join(MODEL_SAVE_PATH, M 
ODEL_NAME), 


global_step=global_step) 
def main(argv=None): 


mnist = input_data.read_data_sets("/tmp/data", one_hot=Tr 
ue) 


train(mnist) 
if _name__ == '_ main__': 


tf.app.run() 


运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结 末 。 


~/mnist$ python mnist_train.py 

Extracting /tmp/data/train-images -idx3-ubyte.gz 
Extracting /tmp/data/train-labels-idx1-ubyte.gz 
Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
Extracting /tmp/data/t10k-labels-idxi-ubyte.gz 


After 1 training step(s), loss on training batch is 3.32075. 


After 1001 training step(s), loss on training batch is 0.241 
039. 


After 2001 training step(s), loss on training batch is 0.227 
391. 


After 3001 training step(s), loss on training batch is 0.138 
462. 


After 4001 training step(s), loss on training batch is 0.132 
074. 


After 5001 training step(s), loss on training batch is 0.103 
472. 


在 新 的 训练 代码 中 ， 不 再 将 训练 和 测试 跑 在 一 起 。 训 练 过 程 中 ， 
1000 轮 输出 一 次 在 当前 训练 batch 上 损失 函数 的 大 小 来 大 致 估计 训练 的 
效果 。 在 上 面 的 程序 中 ， 每 1000 轮 保存 一 次 训练 好 的 模型 ， 这 样 可 以 
通过 一 个 单独 的 测试 程序 ， 更 加 方便 地 在 滑动 平均 模型 上 做 测试 。 以 
下 代码 给 出 了 测试 程序 mnist_eval.py。 


# -*- coding: utf-8 -*- 
import time 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# 加 载 mnist inference.py 和 mnist train.py 中 定义 的 常量 和 函数 。 


import mnist_inference 


import mnist_train 


# 每 10 秒 加 载 一 次 最 新 的 模型 ， 并 在 测试 数据 上 测试 最 新 模型 的 正确 率 。 


EVAL_INTERVAL_SECS = 10 


def evaluate(mnist): 


with tf.Graph().as_default() as g: 


# 定义 输入 输出 的 格式 。 


x = tf.placeholder ( 


tf.float32, [None, mnist_inference.INPUT_NODE], n 
ame='xX-input ' ) 


y_ = tf.placeholder ( 


tf.float32, [None, mnist_inference.OUTPUT_NODE], 
name='y-input') 


validate_feed = {x: mnist.validation.images, 


y_:mnist.validation. labels} 


# 直接 通过 调用 封装 好 的 函数 来 计算 前 向 传播 的 结果 。 因 为 测试 时 不 关 
注 正 则 化 损失 的 值 ， 


# 所 以 这 里 用 于 计算 正则 化 损失 的 函数 被 设置 为 None。 


y = mnist_inference.inference(x, None) 


# 使 用 前 向 传播 的 结果 计算 正确 率 。 如 果 需 要 对 未 知 的 样 例 进行 分 类 ， 
那么 使 用 


# tf.argmax(y，1) 就 可 以 得 到 输入 样 例 的 预测 类 别 了 。 


correct_prediction = tf.equal(tf.argmax(y, 1), tf.arg 
max(y_, 1)) 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, 
tf.float32)) 


# 通过 变量 重 命名 的 方式 来 加 载 模型 ， 这 样 在 前 向 传播 的 过 程 中 就 不 需 
要 调用 求 滑动 平均 

# 的 函数 来 获取 平均 值 了 。 这 样 就 可 以 完全 共用 mnist_inference .py 
中 定义 的 

# 前 向 传播 过 程 。 

variable_averages = tf.train.ExponentialMovingAverage 
( 


mnist_train.MOVING_AVERAGE_DECAY ) 


variables_to_restore = variable_averages.variables_to 
restore() 


saver = tf.train.Saver(variables_to_restore) 


# 每 隔 EVAL_INTERVAL_SECS 秒 调用 一 次 计算 正确 率 的 过 程 以 检测 训 
练 过 程 中 正确 率 的 # 变化 。 


while True: 
with tf.Session() as sess: 


# tf.train.get_checkpoint_state H WA iw it 


checkpoint 文 件 自 动 
# 找到 目录 中 最 新 模型 的 文件 名 。 
ckpt = tf.train.get_checkpoint_state( 
mnist_train.MODEL_SAVE_PATH) 
if ckpt and ckpt.model_checkpoint_path: 
# 加 载 模型 。 
saver.restore(sess, ckpt.model_checkpoint_ 
path) 


# 通过 文件 名 得 到 模型 保存 时 迭代 的 轮 数 。 


global_step = ckpt.model_checkpoint_path\ 


.split('/') 
[= Soe( = Fen] 


accuracy_score = sess.run(accuracy, 


feed_d 
ict=validate_feed) 


print("After %s training step(s), validati 
on " 


"accuracy = %g" % (global_step 
, accuracy_score)) 


elese: 
print('No checkpoint file found') 
return 


time.sleep(EVAL INTERVAL SECS) 


def main(argv=None): 


mnist = input_data.read_data_sets("/tmp/data", one_hot=Tr 
ue) 


evaluate(mnist) 


if _name_ == '_main__': 


tf.app.run() 


上 面 给 出 的 mnist_eval.py 程 序 会 每 隔 10 秒 运行 一 次 ， 每 次 运行 都 是 读 取 
最 新 保存 的 模型 ,并 在 MNIST 验 证 数据 集 上 计算 模型 的 正确 率 。 如 果 需 
要 离线 预测 未 知 数据 的 类 别 (比如 这 个 样 例 程序 可 以 判断 手写 体 数 字 
图 片 中 所 包含 的 数字 ) ， 只 需要 将 计算 正确 率 的 部 分 改 为 答案 输出 即 
可 。 运 行 mnist_eval.py 程 序 可 以 得 到 类 似 下 面 的 结果 。 注 意 因 为 这 个 程 


序 每 10 秒 自动 运行 一 次 ， 而 训练 程序 不 一 定 每 10 秒 输出 一 个 新 模型 ， 
所 以 在 下 面 的 结果 中 会 发 现 有 些 模 型 被 测试 了 多 次 。 一 般 在 解决 真实 
问题 时 ， 不 会 这 么 频繁 地 运行 评测 程序 。 


~/mnist$ python mnist_eval.py 


Extracting /tmp/data/train-images -idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1-ubyte.gz 


Extracting /tmp/data/t10k-images-idx3-ubyte.gz 


Extracting /tmp/data/t10k-labels-idx1i-ubyte.gz 


After 1 training step(s), test accuracy = 0.1282 

After 1001 training step(s), validation accuracy .9769 
After 1001 training step(s), validation accuracy .9769 
After 2001 training step(s), validation accuracy . 9804 
After 3001 training step(s), validation accuracy .982 
After 4001 training step(s), validation accuracy .983 
After 5001 training step(s), validation accuracy .9829 
After 6001 training step(s), validation accuracy . 9832 
After 6001 training step(s), validation accuracy . 9832 


小 结 


本 章 通过 MNIST 数 据 集 验 证 了 第 4 章 介 绍 的 神经 网 络 优化 方法 ， 同 时 也 
给 出 了 使 用 TensorFlow 解 决 MNIST 问 题 的 最 佳 实践 样 例 程 序 。 首 先 在 本 
章 的 5.1 节 中 大 致 讲解 了 MNIST 数 据 集 的 基本 情况 ， 也 介绍 了 
TensorFlow 提 供 的 一 个 类 让 处 理 MNIST 数 据 集 更 加 方便 。 然 后 5.2 给 
出 了 一 个 完整 的 TensorFlow 程 序 来 实现 第 4 章 中 提 到 的 所 有 优化 方法 。 
通过 此 程序 ， 对 比 了 不 同 优 化 算法 对 模型 在 测试 数据 集 上 正确 率 的 影 
啊 。 在 MNIST 数 据 集 上 ， 可 以 明显 地 观察 到 神经 网 络 的 结构 对 最 终结 
果 的 影响 是 巨大 的 ， 使 用 了 激活 函数 和 隐藏 层 的 神经 网 络 要 远 远 好 于 
没有 激活 函数 或 者 没有 隐藏 层 的 神经 网 络 。 下 面 的 第 6 章 将 介绍 神经 网 
络 中 一 个 非常 利用 的 结构 卷 积 网 络 。 通 过 卷 积 网 络 可 以 进一步 所 
高 神经 网 络 模 型 在 MNIST 数 据 集 上 的 正确 率 。 对 于 其 他 的 优化 方法 ， 
虽然 在 MNIST 数 据 集 上 对 于 正确 率 的 提高 有 限 ， 但 是 通过 进一步 的 分 
析 ， 验 证 了 它们 确实 可 以 解决 第 4 章 中 提 到 的 问题 。 这 一 节 也 提出 了 在 
一 个 更 加 复杂 数据 集 上 ， 这 些 优化 算法 可 以 降低 大 约 10% 的 错误 率 。 


在 5.3 和 5.4 节 中 提出 了 5.2 节 中 TensorFlow 程 序 实现 的 一 些 不 足 之 处 ， 并 
介绍 了 TensorFlow 的 最 住 实践 来 解决 这 些 不 足 。5.3 太 指出 当 神 经 网 络 
的 结构 变 得 更 加 复杂 、 变 量 更 多 之 后 ， 通 过 引用 的 方式 传递 变量 会 
大 降低 程序 的 可 读 性 。 为 了 解决 这 个 问题 ，5.3 节 介绍 了 TensorFlow 中 
利用 变量 名 称 来 创建 /获取 变量 的 机 制 。 通 过 这 个 机 制 可 以 完全 将 前 问 
传播 的 过 程 抽 象 出 来 ， 使 得 训练 和 测试 时 不 需要 关心 神经 网 络 的 结构 
或 是 参数 。5.2 节 中 给 出 的 训练 程序 另外 一 个 问题 就 是 没有 将 训练 好 的 
模型 持久 化 。5.4 闻 介绍 了 TensorFlow 保 存 模型 的 方法 以 及 TensorFlow 模 
型 持久 化 的 原理 和 数据 的 格式 。 综 合 5.3 和 5.4 太 中 提出 的 问题 ， 在 5.5 坟 
中 给 出 了 一 个 通过 TensorFlow 解 决 MNIST 问 题 的 最 佳 实践 样 例 程 序 。 这 
个 样 例 将 神经 网 络 的 训练 、 测 试 和 使 用 拆 分 成 了 不 同 的 程序 ， 并 且 将 
神经 网 络 的 前 向 传播 过 程 抽 象 成 了 一 个 独立 的 库 函 数 。 通 过 这 种 方式 
a 、 使 用 过 程 解 耦合 ， 从 而 使 得 整个 流程 更 加 有 灵 
y o 


(1)_ TensorFlow 提 供 了 封装 好 的 MNIST 数 据 集 处 理 类 ， 在 这 里 将 直接 使 用 这 个 类 。 关 于 如 何 处 
理 图 像 数据 将 在 第 7 章 中 详细 介绍 。 


(2)_MNIST 数 据 集中 图 片 的 像素 矩阵 大 小 为 28x28， 但 为 了 更 清楚 地 展示 ， 图 5-1 右 侧 显示 的 为 
14x14 和 矩阵 。 


(3)_ 因为 神经 网 络 模型 训练 过 程 中 的 随机 因素 ， 读 者 不 会 得 到 一 模 一 样 的 结 


(4). 在 本 小 节 中 ， 不 同 神经 网 络 模型 使 用 的 参数 和 5.2.1 小 节 给 出 的 代码 中 的 参数 一 致 。 唯 一 的 
例外 是 不 使 用 激活 函数 的 模型 使 用 的 学 习 率 为 0.05 。 


(5)_ 因为 神经 网 络 的 训练 过 程 存在 随机 因素 ， 本 小 节 中 列 出 的 所 有 结果 都 是 10 次 运行 的 平均 
值 。 


(6)_ 平均 绝对 梯度 是 所 有 参数 梯度 绝对 值 的 平均 数 。 


D. 第 3 章 中 介绍 过 张 量 的 名 称 后 面 有 :0， 表 示 是 某 个 计算 节点 的 第 一 个 输出 。 而 计算 节点 本 号 
的 名 称 后 是 没有 :0 的 。 


(8)_ 2.177 FEX F Protocol Buffer 的 具体 介绍 。 


(9)_ 第 3 章 中 有 更 加 详细 的 关于 TensorFlow 自 动 维护 的 集合 的 介绍 。 


第 6 章 图 像 识别 与 着 只 神经 网 络 


在 第 5 章 中 ， 通 过 MNIST 数 据 集 验证 了 第 4 章 介 绍 的 神经 网 络 设计 与 优 
化 的 方法 。 从 实验 的 结果 可 以 看 出 ， 神经 网 络 的 结 构 会 对 神经 网 络 的 
准确 率 产 生 巨 大 的 影响 。 本 章 将 介绍 一 个 非常 常用 的 神经 网 络 结构 
一 ” 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 。 卷 积 神经 
网 络 的 应 用 非常 广泛 ， 在 自然 语言 处 理 人 中 、 医 药 发 现 和 &、 灾 难 气候 发 现 
& 甚 至 围棋 人 工 智能 程序 备 中 都 有 应 用 。 本 章 将 主要 通过 卷 积 神经 网 络 
在 图 像 识 别 上 的 应 用 来 讲解 卷 积 神经 网 络 的 基本 原理 以 及 如 何 使 用 
TensorFlow 实 现 卷 积 神经 网 络 。 


首先 6.1 节 将 介绍 图 像 识别 领域 解决 的 问题 以 及 图 像 识别 领 域 中 经 典 的 
数据 集 。 然 后 6.2 节 将 介绍 卷 积 神经 网 络 的 主体 思想 和 整体 架构 。 接 着 
6.3 太 将 详细 讲解 卷 积 层 和 池 化 层 的 网 络 结构 ， 以 及 TensorFlow 对 这 些 
网 络 结 构 的 支持 。 在 6.4 节 中 将 通过 两 个 经 典 的 卷 积 神经 网 络 模型 来 介 
绍 如 何 设计 卷 积 神经 网 络 的 架构 以 及 如 何 设置 每 一 层 神 经 网 络 的 配 
置 。 这 一 下 将 通过 TensorFlow 实 现 LeNet-5 模 型 ， 并 介绍 TensorFlow- 
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节 中 将 介绍 如 何 通 过 TensorFlow 实 现 卷 积 神经 网 络 的 迁移 学 习 。 


6.1 图 像 识别 问题 简介 及 经 典 数 据 集 


视觉 是 人 类 认识 世界 非常 重要 的 一 种 知觉 。 对 于 人 类 来 说 ， 通 过 视 宽 
来 识别 手写 体 数字 、 识 别 图 片 中 的 物体 或 者 找 出 图 片 中 人 脸 的 轮廓 都 
征 非 芝 人 简单 的 任务 。 然 而 对 于 计算 机 而 言 ， 让 计算 机 识别 图 乒 中 的 内 
容 就 不 古 一 件 容易 的 事情 了 。 图 像 识 别 问 题 布 望 借助 计算 机 程序 来 处 
理 、 分 析 和 理解 图 片 中 的 内 容 ， 使 得 计算 机 可 以 从 图 片 中 目 动 识别 各 
种 不 同 模 式 的 目标 和 对 像 。 比 如 在 第 5 章 中 介绍 的 MNIST 数 据 集 就 是 通 
过 计算 机 来 识别 图 片 中 的 手写 体 数 子 。 图 像 识 别 问 题 作为 人 工 状 能 的 
一 个 重要 领域 ， 在 最 近 几 年 已 经 取得 了 很 多 突破 性 的 进展 。 本 章 将 要 
介绍 的 疮 积 神经 网 络 束 古 这 些 突 破 性 进展 背后 的 最 主要 技术 文 持 。 图 6- 
rat 图 像 识别 的 主流 技术 在 MNIST 数 据 集 上 的 错误 率 随 着 年 份 的 
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图 6-1 不 同 算法 在 MNIST 数 据 集 上 最 好 表现 变化 趋势 图 9 


图 6-1 中 最 下 方 的 虚线 表示 人 工 标注 的 错误 率 ， 其 他 不 同 的 线段 表示 了 
不 同 算法 的 错误 率 。 从 图 6-1 上 可 以 看 出 ， 相 比 其 他 算法 ， 郑 积 神经 网 
络 可 以 得 到 更 低 的 错误 率 。 而 且 通 过 卷 积 神经 网 络 达 到 的 错误 率 已 经 
非常 接近 人 工 标 注 的 错误 率 了 。 在 MNIST 数 据 集 的 一 万 个 测试 数据 
上 ， 最 好 的 深度 学 习 算 法 只 会 比 人 工 识别 多 错 一 张 图 片 。 


MNIST 手 写 体 识别 数据 集 是 一 个 相对 简单 的 数据 集 ， 在 其 他 更 加 复杂 
的 图 像 识别 数据 集 上 ， 卷 积 神经 网 络 有 更 加 突出 的 表现 。Cifar 数 据 集 


束 古 一 个 影响 力 很 大 的 图 像 分 类 数据 集 。Cifar 数 据 集 分 为 了 Cifar-10 和 
Cifar-100 两 个 问题 ， 它 们 都 是 图 像 词 典 项 目 (Visual Dictionary) 2 
800 万 张 图 厂 的 一 个 子 集 。Cifar 数 据 集 中 的 图 片 为 32x32 的 彩色 图 片 ， 
这 些 图 片 是 由 Alex Krizhevsky 教 授 、Vinod Nair 博 士 和 Geoffrey Hinton 
教授 整理 的 。 


Cifar-10 问 题 收 集 了 来 自 10 个 不 同 种 类 的 60000 张 图 片 。 图 6-2 的 左 侧 显 
示 了 Cifar-10 数 据 集 中 的 每 一 个 种 类 中 的 一 些 样 例 图 片 以 及 这 些 种 类 的 
类 别名 称 ， 图 6-2 的 右 侧 给 出 Cifar-10 中 一 张 飞机 的 图 像 。 因为 图 像 的 像 
素 仅 为 32x32， 所 以 放大 之 后 图 厂 是 比较 模糊 的 ， 但 隐约 还 是 可 以 看 出 
飞机 的 轮廓 。Cifar 官 网 https://wwwi.cs.toronto.edu/~kriz/cifar.html 提 供 了 
不 同 格式 的 Cifar 数 据 集 下 载 ， 具 体 的 数据 格式 这 里 不 再 玖 述 。 
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图 6-2 ”Cifar-10 数 据 集 样 例 图 片 


和 MNIST 数 据 集 类 似 ，Cifar-10 中 的 图 片 大 小 都 是 固定 的 且 每 一 张 图 片 
中 仅 包 含 一 个 种 类 的 实体 皇 。 但 和 MNIST 相 比 ，Cifar 数 据 集 最 大 的 区 
别 在 于 图 片 由 黑白 变 成 的 彩色 ， 且 分 类 的 难度 也 相对 更 高 。 在 Cifar-10 
数据 集 上 ， 人 工 标注 的 正确 率 大 概 为 94% 皇 ， 这 比 MNIST 数 据 集 上 的 人 
工 表现 要 低 很 多 。 图 6-3 给 出 了 MNIST 和 Cifar-10 数 据 集中 比较 难以 分 类 
的 图 厂 样 例 。 在 图 6-3 左 侧 的 四 张 图 片 给 出 了 Cifar-10 数 据 集 中 比较 难 分 
类 的 图 片 ， 直 接 从 图 片上 看 ， 人 类 也 很 难 判断 图 片上 实体 的 类 别 。 图 6- 
3 右 侧 的 四 张 图 片 给 出 了 MNIST 数 据 集中 难度 较 高 的 图 片 。 在 这 些 难度 
高 的 图 片上 ， 人 类 还 是 可 以 有 一 个 比较 准确 的 猜测 。 目 前 在 Cifar-10 数 
据 集 上 最 好 的 图 像 识别 算法 正确 率 为 95.59% 尾 ， 达 到 这 个 正确 率 的 算 
法 同样 使 用 了 卷 积 神经 网 络 。 


图 6-3 MNIST 和 Cifar-10 数 据 集中 分 类 难度 较 高 的 样 例 


无 论 是 MNIST 数 据 集 还 是 Cifar 数 据 集 ， 相 比 真 实 环境 下 的 图 像 识别 问 
题 ， 有 2 个 最 大 的 问题 。 第 一 ， 现 实生 活 中 的 图 片 分 辨 率 要 远 高 于 
32x32， 而 且 图 像 的 分 辨识 也 不 会 是 固定 的 。 第 二 ， 现 实生 活 中 的 物体 
类 别 很 多 ， 无 论 是 10 种 还 是 100 种 都 远 远 不 够 ,而 旦 一 张 图 片 中 不 会 只 
出 现 一 个 种 类 的 物体 。 为 了 更 加 贴近 真实 环境 下 的 图 像 识 别 问题 ， 由 
斯 坦 福 大 学 (Stanford University) 的 李 飞 飞 (Feifei Li) 教授 带头 整理 
的 ImageNet 很 大 程度 地 解决 了 这 两 个 问题 。 


ImageNet 是 一 个 基于 WordNet 中 的 大 型 图 像 数据 库 。 在 ImageNet 中 ， 将 
近 1500 万 图 片 被 关联 到 了 WordNet 的 大 约 20000 个 名 词 同义词 集 上 。 目 
前 每 一 个 与 ImageNet 相 关 的 WordNet 同 义 词 集 都 代表 了 现实 世界 中 的 一 
个 实体 ， 可 以 被 认 为 是 分 类 问题 中 的 一 个 类 别 。ImageNet 中 的 图 片 都 
是 从 互联 网 上 扑 取 下 来 的 ， 并 且 通 过 亚 马 进 的 人 工 标 注 服务 (Amazon 
Mechanical Turk) 将 图 片 分 类 到 WordNet 的 同义词 集 上 尾 。 在 ImageNet 
的 图 片 中 ， 一 张 图 片 中 可 能 出 现 多 个 同义词 集 记 代表 的 实体 。 


图 6-4 展 示 了 ImageNet 中 的 一 张 图 片 ， 在 这 张 图 片上 用 几 个 矩形 框 出 了 
不 同 实体 的 轮廓 。 在 物体 识别 问题 中 ， 一 般 将 用 于 框 出 实体 的 矩形 称 
为 bounding box。 在 图 6-4 中 总 共 可 以 找到 四 个 实体 ， 其 中 有 两 把 椅子 、 
一 个 人 和 一 条 狗 。 类 似 图 6-4 中 所 示 ，ImageNet 的 部 分 图 片 中 的 实体 轮 
万 也 被 标注 了 出 来 ， 以 用 于 更 加 精确 的 图 像 识 别 。 


图 6-4 ImageNet 样 例 图 片 以 及 标注 出 来 的 实体 轮廓 年 


ImageNet 每 年 都 举办 图 像 识 别 相关 的 竞赛 (ImageNet Large Scale Visual 
Recognition Challenge, ILSVRC) ， 而 且 每 年 的 竞赛 都 会 有 一 些 不 同 的 
问题 ， 这 些 问题 基本 涵盖 了 图 像 识别 的 主要 人 研究 方 同 。ImageNet 的 官 
网 http:/www.image-net.org/challenges 人 LSVRC 列 出 了 历届 ILSVRC 竞 赛 的 
题目 和 数据 集 。 不 同年 份 的 InageNet 比 赛 提 供 了 不 同 的 数据 集 ， 本 书 
将 着 重 介绍 使 用 得 最 多 的 ILSVRC2012 图 像 分 类 数据 集 。 


ILSVRC2012 图 像 分 类 数据 集 的 任务 和 Cifar 数 据 集 是 基本 一 致 的 ， 也 是 
识别 图 像 中 的 主要 物体 。ILSVRC2012 图 像 分 类 数据 集 包 含 了 来 自 1000 
个 类 别 的 120 万 张 图 片 ， 其 中 每 张 图片 属 于 且 只 属于 一 个 类 别 。 因 为 
ILSVRC2012 图 像 分 类 数据 集中 的 图 片 是 直接 从 互联 网 上 的 取 得 到 的 ， 
所 以 图 片 的 大 小 从 几 千 字 节 到 几 百 万 字 节 不 等 。 


图 6-5 给 出 了 不 同 算法 在 ImageNet 图 像 分 类 数据 集 上 的 top-5 正 确 率 。 
top-N 正 确 率 指 的 是 图 像 识 别 算法 给 出 前 N 个 答案 中 有 一 个 是 正确 的 概 
率 。 在 图 像 分 类 问题 上 ， 很 多 学 术 论 文 都 将 前 N 个 答案 的 正确 率 作为 比 
较 的 方法 ， 其 中 N 的 取 值 一 般 为 3 或 5。 从 图 6-5 中 可 以 看 出 ， 在 更 加 复 
杂 的 ImageNet 问 题 上 ， 基 于 卷 积 神经 网 络 的 图 像 识别 算法 可 以 远 远 超 
过 人 类 的 表现 。 在 图 6-5 的 左 侧 对 比 了 传统 算法 与 深度 学 习 算法 的 正确 
率 。 从 图 中 可 以 看 出 ， 深 度 学 习 ， 特 别 是 卷 积 神经 网 络 ， 给 图 像 识 别 


问题 带 来 了 质 的 飞跃。2013 年 之 后 ， 基 本 上 所 有 的 研究 都 集中 到 了 深 
度 学 习 算 法 上 。 从 6.2 和 开始 将 具体 介绍 卷 积 神经 网 络 的 基本 原理 ， 以 
及 如 何 通 过 TensorFlow 实 现 卷 积 神经 网 络 。 
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图 6-5 不同 算 法 在 ImageNet ILSVRC2012 图 像 分 类 数据 集 上 的 正确 率 


6.2 ” 卷 积 神经 网 络 简介 


在 6.1 廊 中 介绍 图 像 识别 问题 时 ， 已 经 多 次 提 到 了 卷 积 神经 网 络 。 卷 积 
神经 网 络 在 6.1 节 中 介绍 的 所 有 图 像 分 类 数据 集 上 有 非常 突出 的 表现 。 
在 前 面 的 章节 中 所 介绍 的 神经 网 络 每 两 层 之 间 的 所 有 结 点 都 是 有 边 相 
连 的 ， 所 以 本 书 称 这 种 网 络 结构 为 全 连接 层 网 络 结 Qo NT RABE 
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将 只 包含 全 连接 层 的 神经 网 络 称 之 为 全 连接 神经 网 络 。 在 第 4 章 和 第 5 

章 中 介绍 的 神经 网 络 都 为 全 连接 神经 网 络 。 在 这 一 世 中 将 讲解 卷 积 神 
经 网 络 与 全 连接 神经 网 络 的 差异 ， 并 介绍 组 成 一 个 卷 积 神经 网 络 的 基 
9 科 。 图 6-6 显 示 了 全 连接 神经 网 络 与 卷 积 神经 网 络 的 结构 对 Lt 


全 连接 神经 网 络 (a) 卷 积 神经 网 络 (b) 


图 6-6 ”全 连接 神经 网 络 与 卷 积 神经 网 络 结构 示意 图 


虽然 图 6-6 中 显示 的 全 连接 神经 网 络 结构 和 卷 积 神经 网 络 的 结构 直观 上 
夸 异 比较 大 ， 但 实际 上 它们 的 整体 架构 钙 非 第 相似 的 。 从 图 6-6 中 可 以 
看 出 ， 卷 积 神经 网 络 也 十 通 过 一 层 一 层 的 节点 组 织 起 来 的 。 和 全 连接 
神经 网 络 一 样 ， 卷 积 神 经 网 络 中 的 每 一 个 节点 都 是 一 个 神经 元 号。 在 
全 连接 神经 网 络 中 ， 每 相 邻 两 层 之 间 的 节点 都 有 边 相 连 ， 于 是 一 般 会 
将 每 一 层 全 连接 层 中 的 节点 组 织 成 一 列 ， 这 样 方便 显示 连接 结构 。 而 
对 于 卷 积 神经 网 络 ， 相 邻 两 层 之 间 只 有 部 分 节点 相连 ， 为 了 展示 每 一 
pees 一 般 会 将 每 一 层 卷 积 层 的 方 点 组 织 成 一 个 三 维和 矩 


除了 结构 相似 ， 卷 积 神 经 网 络 的 输入 输出 以 及 训练 流程 与 全 连接 神经 
网 络 也 基本 一 致 。 以 独 像 分 类 为 例 ， 卷 积 神 经 网 络 的 输入 层 吏 是 图 像 
的 原始 像素 ， 而 输出 层 中 的 每 一 个 节点 代表 了 不 同类 别 的 可 信和 度 。 这 
和 全 连接 神经 网 络 的 输入 输出 是 一 致 的 。 类 似 的 ， 第 4 章 中 介绍 的 损失 
函数 以 及 参数 的 优化 过 程 也 都 适用 于 卷 积 神经 网 络 。 在 后 面 的 章节 中 
会 看 到 ， 在 TensorFlow 中 训练 一 个 卷 积 神经 网 络 的 流程 和 训练 一 个 全 连 
接 神 经 网 络 没 有 任何 区 别 。 卷 积 神经 网 络 和 全 连接 神经 网 络 的 唯一 区 
别 就 在 于 神经 网 络 中 相 邻 两 层 的 连接 方式 。 在 进一步 介绍 卷 积 神经 网 
络 的 连接 结构 之 前 ， 本 市 将 和 完 介 绍 为 什么 全 连接 神经 网 络 无 法 很 好 地 
处 理 图 像 数 据 。 


使 用 全 连接 神经 网 络 处 理 图 像 的 最 大 问题 在 于 全 连接 层 的 参数 太 多 。 
对 于 MNIST 数 据 ， 每 一 张 图片 的 大 小 是 28x28x1， 其 中 28x28 为 图 片 的 
大 小 ，x1l 表 示 图 像 是 黑白 的 ， 只 有 一 个 色彩 通道 。 假 设 第 一 层 隐藏 层 
的 节点 数 为 500 个 ， 那 么 一 个 全 链接 层 的 神经 网 络 将 有 
28x28x500+500=392500 个 参数 。 当 图 片 更 大 时 ， 比 如 在 Cifar-10 数 据 集 
中 ， 图 片 的 大 小 为 32x32x3， 其 中 32x32 表 示 图 片 的 大 小 ，x3 表 示 图 片 


是 通过 红 绿 蓝 三 个 色彩 通道 (channel) FARA ° IE RMA ERA 
3072 个 节点 ， 如 果 第 一 层 全 连接 层 仍然 是 500 个 和 点 ， 那 么 这 一 层 全 链 
接 神 经 网 络 将 有 3072x500+500x150 万 个 参数 。 参 数 增 多 除了 导致 计算 
速度 减 慢 ， 还 很 容易 导致 过 拟 合 问题 。 所 以 需要 一 个 更 合理 的 神经 网 
络 结 效 地 减少 神经 网 络 中 参数 个 数 。 卷 积 神经 网 络 就 可 以 达到 
这 个 目的 。 


图 6-7 给 出 了 一 个 更 加 具体 的 眷 积 神经 网 络 殿 构 网 。 
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图 6-7 ”用 于 图 像 分 类 问题 的 一 种 卷 积 神经 网 络 架构 图 
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阵 。 比 如 处 理 Cifar-10 数 据 集 中 的 图 片 时 ， 可 以 将 输入 层 组 织 成 一 个 
32x32x3 的 三 维和 矩阵 。 图 6-7 中 虚线 部 分 展示 了 卷 积 神经 网 络 的 一 个 连 
接 示 意图 ， 从 图 中 可 以 看 出 卷 积 神经 网 络 中 前 几 层 中 每 一 个 节点 只 和 
上 一 层 中 部 分 的 三 点 相连 。 卷 积 神经 网 络 的 具体 连接 方式 将 在 6.3 廊 中 
介绍 。 一 个 卷 积 神经 网 络 主要 由 以 下 5 种 结构 组 成 : 


1. 输入 层 。 输 入 层 是 整个 神经 网 络 的 输入 ， 在 处 理 图 像 的 卷 积 神经 网 
络 中 ， 它 一 般 代表 了 一 张 图 片 的 像素 矩阵 。 比 如 在 图 6-7 中 ， 最 左 侧 的 
三 维 窍 阵 束 可 以 代表 一 张 图片 。 其 中 三 维和 矩阵 的 长 和 宽 代 表 了 图 像 的 
大 小 ， 而 三 维和 矩阵 的 深度 代表 了 图 像 的 色彩 通道 (channel) 。 比 如 黑 
日 图 片 的 深度 为 1， 而 在 RGB 色 彩 模式 下 ， 图 像 的 深度 为 3。 从 输入 层 
开始 ， 卷 积 伸 经 网 络 通过 不 同 的 神经 网 络 结构 将 上 一 层 的 三 维 矩 阵 转 
化 为 下 一 层 的 三 维 窍 孟 ， 直 到 最 后 的 全 连接 层 。 


2. 着 积 层 。 从 名 字 束 可 以 看 出 ， 卷 积 层 是 一 个 卷 积 神经 网 络 中 最 为 重 
要 的 部 分 。 和 传统 全 连接 层 不 同 ， 卷 积 层 中 每 一 个 市 点 的 输入 只 十 上 
一 层 神经 网 络 的 一 小 块 ， 这 个 小 块 征用 的 大 小 有 3x3 或 者 5x5。 郑 积 层 


试图 将 神经 网 络 中 的 每 一 小 块 进行 更 加 深入 地 分 析 从 而 得 到 抽象 程度 
更 高 的 特征 。 一 般 来 说 ， 通 过 卷 积 层 处 理 过 的 节点 矩阵 会 变 得 更 深 ， 
所 以 在 图 6-7 中 可 以 看 到 经 过 卷 积 层 之 后 的 节点 矩 阵 的 深度 会 增加 。 


3. WZ (Pooling) 。 池 化 层 神 经 网 络 不 会 改变 三 维 矩 阵 的 深度 ， 但 
征 它 可 以 缩小 矩阵 的 大 小 。 池 化 操作 可 以 认为 是 将 一 张 分 辨 率 较 高 的 
图 片 转化 为 分 辨 率 较 低 的 图 片 。 通 过 池 化 层 ， 可 以 进一步 缩小 最 后 全 
连接 层 中 市 点 的 个 数 ， 从 而 达到 减少 整个 神经 网 络 中 参数 的 目的 。 


4. 全 连接 层 。 如 图 6-7 所 示 ， 在 经 过 多 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 
在 卷 积 神经 网 络 的 最 后 一 般 会 是 由 1 到 2 个 全 连接 层 来 给 出 最 后 的 分 类 
结果 。 经 过 几 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 可 以 认为 图 像 中 的 信息 
已经 被 抽象 成 了 信息 含量 更 高 的 特征 。 我 们 可 以 将 卷 积 层 和 池 化 层 看 
成 自动 图 像 特征 提取 的 过 程 。 在 特征 提取 完成 之 后 ， 仍 然 需 要 使 用 全 
连接 层 来 完成 分 类 任务 。 


5. Softmax 层 。 和 第 4 章 中 介绍 的 一 样 ，Softmax 层 主要 用 于 分 类 问题 。 
通过 Softmax 层 ， 可 以 得 到 当前 样 例 属于 不 同 种 类 的 概率 分 布 情况 。 


在 卷 积 神经 网 络 中 使 用 到 的 输入 层 、 全 连接 层 和 Softmax 层 在 第 4 章 中 
都 有 过 详细 的 介绍 ， 这 里 不 再 性 述 。 在 下 面 的 6.3 节 中 将 详细 介绍 卷 积 
神经 网 络 中 特殊 的 两 个 网 络 结构 一 一 卷 积 层 和 池 化 层 。 


6.3 ”着 积 神经 网 络 常 用 结构 


6.2 刷 已 经 大 致 介 绍 了 卷 积 层 和 池 化 层 的 概念 ， 在 本 节 中 将 具体 介绍 这 
两 种 网 络 结构 。 在 下 面 的 两 个 小 节 中 将 分 别 介绍 卷 积 层 和 池 化 层 的 网 
络 结 构 以 及 前 癌 传 播 的 过 程 ， 并 通过 TensorFlow 实 现 这 些 网 络 结构 。 本 
书 中 将 不 会 介绍 优化 卷 积 神经 网 络 的 数学 公式 ， 但 通过 TensorFlow 可 以 
很 容易 地 完成 优化 的 过 程 。 


6.3.1 BHE 


本 小 和 将 详细 介绍 卷 积 层 的 结构 以 及 其 前 同 传播 的 算法 。 图 6-8 中 显示 
了 卷 积 层 神 经 网 络 结构 中 最 重要 的 部 分 ， 这 个 部 分 被 称 之 为 过 滤器 
(filter) 或 者 内 核 (kernel) 。 因 为 TensorFlow 文 档 中 将 这 个 结构 称 
为 过 滤器 (filter) ， 所 以 在 本 书 中 将 统称 这 个 结构 为 过 滤器 。 如 图 6-8 


所 示 ， 过 滤器 可 以 将 当前 层 神 经 网 络 上 的 一 个 子 节 点 矩阵 转化 为 下 一 
层 神经 网 络 上 的 一 个 单位 市 点 矩阵 。 单 位 节点 答 阵 指 的 是 一 个 长 和 宽 
都 为 1， 但 深度 不 限 的 节点 和 矩阵 。 


图 6-8” 卷 积 层 过 滤器 (filter) 结构 示意 图 包 


在 一 个 眷 积 改 中 ， 过 滤 事 所 处 理 的 节点 窍 阵 的 长 和 宽 都 十 由 人 工 指 定 
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寸 有 3x3 或 5x5。 因 为 过 滤器 处 理 的 矩阵 深度 和 当前 层 神 经 网 络 方 点 矩 
阵 的 深度 是 一 怪 的 ， 所 以 虽然 广 点 矩阵 是 三 维 的 ， 但 过 滤器 的 尺寸 只 
需要 指定 两 个 维度 。 过 滤器 中 为 外 一 个 需要 人 工 指 定 的 设置 症 处 理 得 
到 的 单位 节点 矩阵 的 深度 ， 这 个 设置 称 为 过 滤器 的 深度 。 注 意 过 滤 避 
的 尺寸 指 的 是 一 个 过 滤 絮 输入 节点 矩阵 的 大 小 ， 而 深度 指 的 古 输出 单 
位 节点 矩阵 的 深度 。 如 图 6-8 所 示 ， 左 侧 小 矩阵 的 尺寸 为 过 滤器 的 尺 
寸 ， 而 右 侧 单位 矩阵 的 深度 为 过 滤器 的 深度 。6.4 节 将 通过 一 些 经 典 卷 
积 神经 网 络 结构 来 了 解 如 何 设置 每 一 层 卷 积 层 过 滤器 的 尺寸 和 深度 。 


如 图 6-8 所 示 ， 过 滤 卓 的 前 问 传 播 过 程 束 古 通 过 左 侧 小 矩阵 中 的 节操 计 
算出 右 侧 单位 矩阵 中 市 点 的 过 程 。 为 了 直观 地 解释 过 滤 剖 的 前 同 传播 
过 程 ， 在 下 面 的 篇 幅 中 将 给 出 一 个 具体 的 样 例 。 在 这 个 样 例 中 将 展示 
如 何 通 过 过 滤 胡 将 一 个 2x2x3 的 太 反 矩阵 变化 为 一 个 1x1x5 的 持 位 市 态 
矩阵。 一 个 过 滤器 的 前 向 传播 过 程 和 全 连接 层 相 似 ， 它 总 共和 需要 
2x2x3x5+5=65 个 参数 ， 其 中 最 后 的 +5 为 偏 置 项 参数 的 个 数 。 假 设 使 用 


Wz 来 表示 对 于 输出 单位 节点 矩阵 中 的 第 i 个 节点 ， 过 滤器 输入 


节点 (xyz) 的 权重 ， 使 用 b 表示 第 i 个 输出 节点 对 应 的 偏 置 项 参数 ， 
那么 单位 矩阵 中 的 第 i 个 节点 的 取 值 (i) 为: 


= A g | 
SOO Y Y mo Wagi) 


x=] y=] z=] 


其 中 q ,为 过 滤器 中 节点 (xy,z) PUE, pAE KZ o M69 T 
在 给 定 a，w"' 和 b° 的 情况 下 ， 使 用 ReLU 作 为 激活 函数 时 g (0) 的 计算 
过 程 。 在 图 6-9 的 左 侧 给 出 了 a 和 w"° 的 取 值 ， 这 里 通过 3 个 二 维和 矩阵 来 表 
示 一 个 三 维 矩 阵 的 取 值 ， 其 中 每 一 个 二 维和 矩阵 表示 三 维和 矩阵 在 某 一 个 
深度 上 的 取 值 。 图 6-9 中 :符号 表示 点 积 ， 也 就 是 矩阵 中 对 应 元 素 乘积 的 
和 。 图 6-9 的 右 侧 显示 了 g (0) 的 计算 过 程 。 如 果 给 出 w: 到 w* 和 :到 bb 
“， 那 么 也 可 以 类 似 地 计算 出 9 (1) 到 g (4) 的 取 值 。 如 果 将 a 和 w: 组 
织 成 两 个 向 量 ， 那 么 一 个 过 滤器 的 计算 过 程 完全 可 以 通过 第 3 章 中 介绍 
的 向 量 乘法 来 完成 。 


al:, :, 0] al:, :, 1] al:,:,2] 

BAHE 2|1 | 1 | 0 g(0) = f{{1x2+2x0+0x1+(-1) x (-1)] + 

O) | =1 “1 | -2 2 | 1 [2x(-2)+1x2+(-1)x0+(-2) x 1] + 
。 十 。 + 。 Fi [1x0+0 x1 +2 x (-1) + 1x (-1)] +1} 

EE EE [o | 2] = f(3 + (4) +(-3) + 1} 

BHE OE 


BE = f{-3} =0 


图 6-9 ”使 用 过 滤器 计算 g (0) 取 值 的 过 程 示 意图 


上 面 的 样 例 已 经 介绍 了 在 卷 积 层 中 计算 一 个 过 滤器 的 前 向 传播 过 程 。 
卷 积 层 结构 的 前 癌 传 播 过 程 焉 宇通 过 将 一 个 过 滤 弟 从 神经 网 络 当前 层 
的 左上 角 移动 到 右 下 角 ， 并 且 在 移动 中 计算 每 一 个 对 应 的 单位 矩阵 得 
到 的 。 图 6-10 展 示 了 卷 积 层 结构 前 癌 传 播 的 过 程 。 为 了 更 好 地 可 视 化 过 
滤器 的 移动 过 程 ， 图 6-10 中 使 用 的 节点 矩阵 深度 都 为 1。 在 图 6-10 中 ， 
展示 了 在 3x3 和 矩阵 上 使 用 2x2 过 滤 占 的 着 积 层 前 同 传播 过 程 。 在 这 个 过 
程 中 ， 首 先 将 这 个 过 滤器 用 于 左上 角子 矩阵 ， 然 后 移动 到 右上 和 角 算 
阵 ， 再 到 左下 角 和 矩阵 ， 最 后 到 右 下 角 沧 阵 。 过 滤 胡 每 移动 一 次 ， 可 以 
计算 得 到 一 个 值 〈 当 深度 为 k 时 会 计算 出 k 个 值 ) 。 将 这 些 数值 拼接 成 
一 个 新 的 和 矩阵， 就 完成 了 卷 积 层 前 向 传播 的 过 程 。 图 6-10 的 右 侧 显 示 了 
过 滤器 在 移动 过 程 中 计算 得 到 的 结果 与 新 矩阵 中 节点 的 对 应 关系 。 


Al6-10 ” 卷 积 层 前 向 传播 过 程 示意 图 


当 过 滤器 的 大 小 不 为 1x1 时 ， 卷 积 层 前 向 传播 得 到 的 矩阵 的 尺寸 要 小 于 
当前 层 矩 阵 的 尺寸 。 如 图 6-10 所 示 ， 当 前 层 矩 阵 的 大 小 为 3x3 (图 6-10 
左 侧 矩阵 ) ， 而 通过 卷 积 层 前 向 传播 算法 之 后 ， 得 到 的 矩阵 大 小 为 2x2 
(图 6-10 右 侧 和 矩阵 ) 。 为 了 避免 尺寸 的 变化 ， 可 以 在 当前 层 和 矩阵 的 边界 
上 加 入 全 0 填充 (zero-padding) 。 这 样 可 以 使 得 卷 积 层 前 向 传播 结果 和 矩 
阵 的 大 小 和 当前 层 矩 阵 保持 一 致 。 图 6-11 显 示 了 使 用 全 0 填充 后 卷 积 层 
前 向 传播 过 程 示意 图 。 从 图 中 可 以 看 出 ， 加 入 一 层 全 0 填充 后 ， 得 到 的 
结构 矩阵 大 小 就 为 3x3 了 。 


图 6-11 ”使 用 了 全 0 填充 (zero-padding) 的 卷 积 层 前 向 传播 示意 图 蜡 
除了 使 用 全 0 填充 ， 还 可 以 通过 设置 过 滤 亏 移动 的 步 长 来 调整 结 采 窍 阵 


的 大 小 。 在 图 6-10 和 图 6-11 中 ， 过 滤 如 每 次 部 只 移动 一 格 。 图 6-12 中 显 
示 了 当 移 动 步 长 为 2 且 使 用 全 0 填充 时 ， 卷 积 层 前 同 传播 的 过 程 。 


6-12 ”过 滤器 移动 步 长 为 2 且 使 用 全 0 填充 时 卷 积 层 前 向 传播 过 程 示意 图 


从 图 6-12 上 可 以 看 出 ， 当 长 和 宽 的 步 长 均 为 2 时 ， 过 滤 疹 每 隔 2 步 计 算 一 
次 结 末 ， 所 以 得 到 的 结 采 矩阵 的 长 和 宽 也 基 都 只 有 原来 的 一 半 。 下 面 
的 公式 给 出 了 在 同时 使 用 全 0 填充 时 结果 和 矩阵 的 大 小 。 


OUljongth == | iMttengeh / sir id length | 
OUl width = | Pa / strid Cwidth | 7 
其 中 out,,, 表示 输出 层 矩 阵 的 长 度 ， 它 等 于 输入 层 矩 阵 长 度 除 以 长 度 方 
向 上 的 步 长 的 同上 取 整 值 。 类 似 的 ，out ,表示 输出 层 和 矩阵 的 宽度 ， 它 


等 于 输入 层 矩 阵 蜗 度 除 以 宽度 方向 上 的 步 长 的 向 上 取 整 值 。 如 果 不 使 
用 全 0 填充 ， 下 面 的 公式 给 出 了 结果 矩阵 的 大 小 。 


Outlength = | (tengih — filtetiengh +1) / stridejen gh | 


ilas = | (irr = fil lef width + 1) / st ‘ide wat | 


在 图 6-10、 图 6-11 以 及 图 6-12 中 ， 只 讲解 了 移动 过 滤器 的 方式 ， 没 有 涉 
及 a 到 过 滤器 中 的 参数 如 何 设 定 ， 所 以 在 这 些 图 片 中 结果 和 矩阵 中 并 没有 
填 上 具体 的 值 。 在 卷 积 神经 网 络 中 ， 每 一 个 卷 积 层 中 使 用 的 过 滤器 中 


的 参数 都 是 一 样 的 。 这 是 卷 积 神经 网 络 一 个 非常 重要 的 性 质 。 从 直观 
上 理解 ， 共 享 过 滤器 的 参数 可 以 使 得 图 像 上 的 内 容 不 受 位 置 的 影响 。 
以 MNIST 手 写 体 数 子 识 别 为 例 ， 无 论 数 子 “1” 出 现在 左上 和 角 还 是 右 下 
角 ， 图 片 的 种 类 部 十 不 变 的。 因为 在 左上 和 角 和 右 下 角 使 用 的 过 滤 句 参 
ee eee 得 到 的 


共享 每 一 个 卷 积 层 中 过 滤器 中 的 参数 可 以 巨 幅 减少 神经 网 络 上 的 参 
数 。 以 Cifar-10 问 题 为 例 ， 输 入 层 和 矩阵 的 维度 是 32x32x3。 假 设 第 一 层 
卷 积 层 使 用 尺寸 为 5x5， 深 度 为 16 的 过 滤器 ， 那 么 这 个 卷 积 层 的 参数 个 
数 为 5x5x3x16+16=1216 个 。6.2 届 中 提 到 过 ， 使 用 500 个 隐藏 节点 的 全 
连接 层 将 有 1.5 百 万 个 参数 。 相 比 之 下 ， 卷 积 层 的 参数 个 数 要 远 远 小 于 
全 连接 层 。 而 且 卷 积 层 的 参数 个 数 和 图 片 的 大 小 无 关 ， 它 只 和 过 滤器 
的 尺寸 、 深 度 以 及 当前 层 节 点 矩阵 的 深度 有 关 。 这 使 得 卷 积 神经 网 络 
可 以 很 好 地 扩展 到 更 大 的 图 像 数 据 上 。 


结合 过 滤器 的 使 用 方法 和 参数 共享 的 机 制 ， 图 6-13 给 出 了 使 用 了 全 0 填 
Te > DARA QA SPE BM IAS TRAIT EAE o 


w= b=1 
po | 2 | 


图 6-13 ” 卷 积 层 前 向 传播 过 程 样 例 图 


图 6-13 给 出 了 过 滤 大 上 权重 的 取 值 以 及 仿 置 项 的 取 值 ， 通 过 图 6-9 中 所 
示 的 计算 方法 ， 可 以 得 到 每 一 个 格子 的 具体 取 值 。 下 面 的 公式 给 出 了 


左上 角 格 子 取 值 的 计算 方法 ， 其 他 格子 可 以 依次 类 推 。 


ReLU(Ox1+0x(-1)+0x0+1#241)=ReLUG)=3 
TensorFlow 对 卷 积 神经 网 络 提供 了 非常 好 的 支持 ， 下 面 的 程序 实现 了 一 
个 卷 积 层 的 前 回 传 播 过 程 。 从 以 下 代码 可 以 看 出 ， 通 过 TensorFlow 实 现 
卷 积 层 是 非常 方便 的 。 


# 通过 tf.get_variable 的 方式 创建 过 滤器 的 权重 变量 和 偏 置 项 变量 。 上 面 介绍 
了 卷 积 层 


# 的 参数 个 数 只 和 过 滤器 的 太 寸 、 深 度 以 及 当前 层 节 点 和 矩阵 的 深度 有 关 ， 所 以 这 里 
声明 的 参数 变 


# 量 是 一 个 四 维和 矩阵 ， 前 面 两 个 维度 代表 了 过 滤器 的 尺寸 ， 第 三 个 维度 表示 当前 层 
的 深度 ， 第 四 


# 个 维度 表示 过 滤器 的 深度 。 

filter_weight = tf.get_variable( 
'weights', [5, 5, 3, 16], 
initializer=tf.truncated_normal_initializer(stddev=0.1) ) 


# 和 卷 积 层 的 权重 类 似 ， 当 前 层 矩 阵 上 不 同位 置 的 偏 置 项 也 是 共享 的 ， 所 以 总 共有 
下 一 层 深度 个 不 


# 同 的 偏 置 项 。 本 样 例 代 码 中 16 为 过 滤器 的 深度 ， 也 是 神经 网 络 中 下 一 层 节 点 矩 
阵 的 深度 。 


biases = tf.get_variable( 


'biases', [16], initializer=tf.constant_initializer(0.1) 


# tf.nn.conv2d 提 供 了 一 个 非常 方便 的 函数 来 实现 卷 积 层 前 向 传播 的 算法 。 这 
个 函数 的 第 一 个 输 


# 入 为 当前 层 的 节点 和 矩阵。 注意 这 个 矩阵 是 一 个 四 维 矩 了 省， 后 面 三 个 维度 对 应 一 个 
节点 矩阵 ， 第 一 


# 维 对 应 一 个 输入 batch。 比 如 在 输入 层 ，input[9, :,:,:] 表 示 第 一 张 图 片 ， 
Ot el a] 


E 表示 第 二 张 图 片 ， 以 此 类 推 。tf.nn.conv2d 第 二 个 参数 提供 了 卷 积 层 的 权 
重 ， 第 三 个 参数 为 不 


# 同 维度 上 的 步 长 。 昌 然 第 三 个 参数 提供 的 是 一 个 长 度 为 4 的 数组 ， 但 是 第 一 维和 
最 后 一 维 的 数字 


# 要 求 一 定 是 1。 这 是 因为 卷 积 层 的 步 长 只 对 矩阵 的 长 和 宽 有 效 。 最 后 一 个 参数 是 
填充 (padding) 


# 的 方法 ，TensorFlow 中 提供 SAME 或 是 VALID 两 种 选择 。 其 中 SAME 表 示 添 加 全 
0 填充 (如 


# 图 6-11 所 示 ) , “VALID” 表 示 不 添加 (如 图 6-10 所 示 ) ° 
conv = tf.nn.conv2d( 


input, filter_weight, strides= 
[1, 1, 1, 1], padding='SAME' ) 


# tf.nn.bias_add 提 供 了 一 个 方便 的 函数 给 每 一 个 节点 加 上 偏 置 项 。 注 意 这 里 
不 能 直接 使 用 加 


# 法 ， 因 为 矩阵 上 不 同位 置 上 的 节点 都 需要 加 上 同样 的 偏 置 项 。 如 图 6-13 所 示 ， 
虽然 下 一 层 神 


# 经 网 络 的 大 小 为 2x2， 但 是 偏 置 项 只 有 一 个 数 (因为 深度 为 1) ， 而 2x2 和 矩阵 中 
的 每 一 个 值 都 需 


# 要 加 上 这 个 偏 置 项 。 
bias = tf.nn.bias_add(conv, biases) 
# TSR Rat Re LUISA HA Te EERE LL © 


actived_conv = tf.nn.relu(bias) 


6.3.2 JHE 
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之 间 往 往 会 加 上 一 个 池 化 层 (pooling layer) 。 池 化 层 可 以 非常 有 效 地 
缩小 矩阵 的 尺寸 号 ， 从 而 减少 最 后 全 连接 层 中 的 参数 。 使 用 池 化 层 既 
可 以 加 快 计算 速度 也 有 防止 过 拟 合 问 题 的 作用 名 。 


和 6.3.1 小 方 中 介绍 的 着 积 层 类 似 ， 池 化 层 前 问 传 播 的 过 程 也 是 通过 移 
动 一 个 类 似 过 滤器 的 结构 完成 的 。 不 过 池 化 层 过 滤器 中 的 计算 不 是 和 
点 的 加 权 和 ， 而 是 采用 更 加 简单 的 最 大 值 或 者 平均 值 运算 。 使 用 最 大 
值 操 作 的 池 化 层 被 称 之 为 最 大 池 化 层 (max pooling) ， 这 是 被 使 用 得 
最 多 的 池 化 层 结构 。 使 用 平均 值 操 作 的 池 化 层 被 称 之 为 平均 池 化 层 

(average pooling) 。 其 他 池 化 层 在 实践 中 使 用 的 比较 少 ， 本 书 不 做 过 


多 的 介绍 。 


与 卷 积 层 的 过 滤器 类 似 ， 池 化 层 的 过 滤 絮 也 需要 人 工 设 定 过 滤器 的 尺 
寸 、 是 否 使 用 全 0 填充 以 及 过 滤 卓 移动 的 步 长 等 设置 ， 而 且 这 些 设 置 的 
意义 也 是 一 样 的 。 卷 积 层 和 池 化 层 中 过 滤器 移动 的 方式 古 相 似 的 ， 唯 
一 的 区 别 在 于 卷 积 层 使 用 的 过 滤器 是 横 跨 整个 深度 的 ， 而 池 化 层 使 用 


HIETE AN JA Me] — (Le nyo o Ar LA HEC Ae ihe a BR T ERKA 
宽 两 个 维度 移动 之 外 ， 它 还 需要 在 深度 这 个 维度 移动 。 图 6-14 展 示 了 一 
个 最 大 池 化 层 前 ara : 


图 6-14 ”3x3x2 节 点 矩阵 经 过 全 0 填充 且 步 长 为 2 的 最 大 池 化 层 前 向 传播 过 程 示 意图 。 


在 图 6-14 中 ， 不 同 颜色 或 者 不 同 线段 (虚线 或 者 实 线 ) 代表 了 不 同 的 池 
化 层 过 滤 絮 。 从 图 6-14 中 可 以 看 出 ， 池 化 层 的 过 滤器 除了 在 长 和 宽 的 维 
度 上 移动 ， 它 还 需要 在 深度 的 维度 上 移动 。 下 面 的 TensorFlow 程 序 实现 
了 最 大 池 化 层 的 前 问 传 播 算法 。 


# tf.nn. max_pool 实 现 了 最 大 池 化 层 的 前 向 传播 过 程 ， 它 的 参数 和 
tf.nn.conv2d 函 数 类 似 。 


# ksize 提 供 了 过 滤器 的 尺寸 ，strides 提 供 了 步 长 信息 ，padding 提 供 了 是 否 
使 用 全 0 填充 。 


pool = tf.nn.max_pool(actived_conv, ksize=[1, 3, 3, 1], 


strides= 
[1, 2, 2, 1], padding='SAME' ) 


对 比 池 化 层 和 卷 积 层 前 加 传播 在 TensorFlow 中 的 实现 ， 可 以 发 现 函 数 的 
参数 形式 是 相似 的 。 在 ttnn.max_pool 函 数 中 ， 首 先 需 要 传 入 当前 层 的 
届 点 和 矩阵， 这 个 矩阵 是 一 个 四 维和 矩阵 ， 格 式 和 tt.nn.conv2d 函 数 中 的 第 
一 个 参数 一 致 。 第 二 个 参数 为 过 滤器 的 尺寸 。 虽 然 给 出 的 是 一 个 长 度 
为 4 的 一 维 数组 ， “但 是 这 个 六 数组 的 第 一 个 和 最 后 一 个 数 必须 为 1。 这 意 
味 着 池 化 层 的 过 滤器 是 不 可 以 跨 不 同 输入 样 例 或 者 和 点 矩阵 深度 的 。 

在 实际 应 用 中 使 用 得 最 多 的 池 化 层 过 滤器 尺寸 为 [1,2,2,1] 或 者 [1,3,3,1]。 


tfnn.max_pool 函 数 的 第 三 个 参数 为 步 长 ， 它 和 tft.nn.conv2d 函 数 中 步 长 
的 意义 是 一 样 的 ， 而 且 第 一 维和 最 后 一 维 也 只 能 为 1。 这 意味 着 在 
TensorFlow 中 ， 池 化 层 不 能 减少 节点 矩阵 的 深度 或者 输入 样 例 的 个 数 
tf.nn.max_pool 函 数 的 最 后 一 个 参数 指定 了 是 否 使 用 全 0 填充 。 这 个 参数 
也 只 有 两 种 取 值 一 -VALID 或 者 SAME， 其 中 VALID 表示 不 使 用 全 0 填 
充 ，SAME 表 示 使 用 全 0 填充 。TensorFlow 还 提供 了 tt.nn.avg_pool 来 实现 
平均 池 化 层 。tf.nn.avg_pool 芳 数 的 调用 格式 和 tf.nn.max_pool 范 数 是 一 
致 的 。 


6.4 ”经 典 郑 积 网 络 模 型 


在 6.3 小 方 中 介 绍 了 卷 积 神经 网 络 特有 的 两 种 网 络 结构 一 一 卷 积 层 和 波 
化 层 。 然 而 ， 通 过 这 些 网 络 结构 任意 组 合 得 到 的 神经 网 络 有 无 限 多 
种 ， 怎 样 的 神经 网 络 更 有 可 能 解决 真实 的 图 像 处 理 问 题 呢 ? TF 
介绍 一 些 经 典 的 卷 积 神经 网 络 的 网 络 结构 。 通 过 这 些 经 典 的 卷 积 神经 
网 络 的 网 络 结构 可 以 总 结 出 卷 积 神经 网 络 结构 设计 的 一 些 模式 。 在 
6.4.1 小 廊 中 将 具体 介绍 LeNet-5 模 型 ， 并 给 出 一 个 完整 的 TensorFlow 程 
序 来 实现 LeNet-5 模 型 。 通 过 这 个 模型 ， 将 给 出 卷 积 神经 网 络 结构 设计 
的 一 个 通用 模式 。 然 后 6.4.2 小 节 将 介绍 设计 卷 积 神经 网 络 结构 的 另外 
一 种 思路 Inception 模 型 。 这 个 小 节 将 简单 介绍 TensorFlow-Slim 工 
具 ， 并 通过 这 个 工具 实现 合 歌 提出 的 Inception-v3 模 型 中 的 一 个 模块 。 


6.4.1 LeNet-5 模 型 


LeNet-5 模 型 是 Yann LeCun 教 授 于 1998 年 在 论文 Gradient-based learning 
applied to document recognition 和 中 提出 的 ， 它 是 第 一 个 成 功 应 用 于 数 
字 识 别 问题 的 卷 积 神经 网 络 。 在 MNIST 数 据 集 上 ，LeNet-5 模 型 可 以 达 
到 大 约 99.2% 的 正确 率 。LeNet-5 模 型 总 共有 7 层 ， 图 6-15 展 示 了 LeNet-5 
模型 的 染 构 。 


C1: feature maps 
INPUT 
3232 6@28x28 


| 
Full connection Gaussian connections 


Convolutions Subsampling Convolutions Subsampling Full connection 


图 6-15 ”LeNet-5 模 型 结构 图 最 
在 下 面 的 篇 幅 中 将 详细 介绍 LeNet-5 模 型 每 一 层 的 结构 号。 
第 一 层 ， 卷 积 层 


一 层 的 输入 就 是 原始 的 图 像 像 素 ，LeNet-5 模 型 接受 的 输入 层 大 小 为 
32x32x1。 第 一 个 卷 积 层 过 滤器 的 尺寸 为 5x5， 深 度 为 6， 不 使 用 全 0 填 
充 ， 步 长 为 1。 因 为 没有 使 用 全 0 填充 ， 所 以 这 一 层 的 输出 的 尺寸 为 32- 
5+1=28， 深 度 为 6。 这 一 个 卷 积 层 总 共有 5x5x1x6+6=156 个 参数 ， 其 中 
6 个 为 偏 置 项 参数 。 因 为 下 一 层 的 节点 矩阵 有 28x28x6=4704 个 节点 ， 
个 节点 和 5x5=25 个 当前 层 节 点 相连 ， 所 以 本 层 卷 积 层 总 共有 4704x 

(25+1) =122304 个 连接 。 


第 二 层 ， 池 化 层 


这 一 层 的 输入 为 第 一 层 的 输出 ， 是 一 个 28x28x6 的 节点 矩阵 。 本 层 采 用 
的 过 滤器 大 小 为 2x2， 长 和 宽 的 步 长 均 为 2， 所 以 本 层 的 输出 矩阵 大 小 
为 14x14x6。 原 始 的 LeNet- 十 滤器 和 6.3.2 小 节 介 绍 的 有 
些 细微 差别 ， 本 书 不 做 具体 介 


第 三 层 ， 卷 积 层 


本 层 的 输入 矩阵 大 小 为 14x14x6， 使 用 的 过 滤器 大 小 为 5x5， 深 度 为 
6。 本 层 不 使 用 全 0 填充 ， 步 长 为 1。 本 层 的 输出 矩阵 大 小 为 
10x10x16。 按照 标准 的 卷 积 层 ， 本 层 应 该 有 5x5x6x16+16=2416 个 参 
数 ，10x10x16x (25+1) =41600 个 连接 。 


第 四 层 ， 池 化 层 


本 层 的 输入 矩阵 大 小 为 10x10x16， 采 用 的 过 滤器 大 小 为 2x2， 步 长 为 
2。 本 层 的 输出 矩阵 大 小 为 5x5x16。 


BLE, PERE 


本 层 的 输入 矩阵 大 小 为 5x5x16， 在 LeNet-5 模 型 的 论文 中 将 这 一 层 称 为 
卷 积 屋 ， 但 是 因为 过 滤器 的 大 小 就 是 5x5， 所 以 和 全 连接 层 没 有 区 别 ， 
在 之 后 的 TensorFlow 程 序 实现 中 也 会 将 这 一 层 看 成 全 连接 层 。 如 果 将 
5x5x16 和 矩阵 中 的 节点 拉 成 一 个 向 量 ， 那么 这 一 层 和 在 第 4 章 中 介 Mattes 
连接 层 输 入 就 一 样 了 。 本 层 的 输出 节点 个 数 为 120， 总 共有 
5x5x16x120+120=48120 个 参数 。 


第 六 层 ， 全 连接 层 


本 层 的 输入 市 点 个 数 为 120 个 ， 输 出 节点 个 数 为 84 个 ， 总 共 参 数 为 
120x84+84=10164 个 。 


Bt, PERE” 


本 层 的 输入 广 点 个 数 为 84 个 ， 输 出 节点 个 数 为 10 个 ， 总 共 参 数 为 
84x10+10=850 个 。 


上 面 介绍 了 LeNet-5 模 型 每 一 层 结构 和 设置 ， 下 面 给 出 一 个 TensorFlow 
的 程序 来 实现 一 个 类 似 LeNet-5 模 型 的 卷 积 神经 网 络 来 解决 MNIST 数 字 
识别 问题 。 通 过 TensorFlow 训 练 卷 积 神经 网 络 的 过 程 和 第 5 章 中 介绍 的 
训练 全 连接 神经 网 络 是 完全 一 样 的 。 损 失 函 数 的 计算 、 反 癌 传 播 过 程 
的 实现 都 可 以 复 用 5.5 节 中 给 出 的 mnist_train.py 程 序 。 唯 一 的 区 别 在 于 
因为 卷 积 神经 网 络 的 输入 层 为 一 个 三 维和 矩阵 ， 所 以 需要 调整 一 下 输入 
数据 的 格式 : 


# 调整 输入 数据 pLaceholder 的 格式 ， 输 入 为 三 个 四 维和 矩阵 © 
x = tf.placeholder(tf.float32, [ 


BATCH_SIZE, # 第 一 维 表 示 一 
个 batch 中 样 例 的 个 数 。 


mnist_inference.IMAGE_SIZE, # 第 二 维和 第 三 维 表 
示 图 片 的 尺寸 。 


mnist_inference.IMAGE_SIZE, 


mnist_inference.NUM_CHANNELS], # 第 四 维 表示 图 片 的 
深度 ， 对 于 RBG 格 


# 式 的 图 
片 ， 深 度 为 3 。 


name='xX-input' ) 


# KARRA AYU Re SA ade A — PEE, HARK el I eA 


sess. runt ° 
reshaped_xs = np.reshape(xs, (BATCH_SIZE, 


mnist_inference. IMAGE_SI 


ZE, 
mnist_inference. IMAGE_SI 
ZE, 
mnist_inference.NUM_CHAN 
NELS) ) 


在 调整 完 输入 格式 之 后 ， 只 需要 在 程序 mnist_inference.py 中 实现 类 似 
LeNet-5 模 型 结构 的 前 癌 传 播 过 程 即 可 。 下 面 给 出 了 修改 后 的 
mnist_infernece.py 程 序 。 


# -*- coding: utf-8 -*- 


import tensorflow as tf 


# 配置 神经 网 络 的 参数 。 
INPUT_NODE = 784 


OUTPUT_NODE = 10 


IMAGE_SIZE = 28 


NUM_CHANNELS = 1 


NUM_LABELS = 10 


# 第 一 层 卷 积 层 的 尺寸 和 深度 。 


CONV1_DEEP = 32 


CONV1 SIZE = 5 


# 第 二 层 卷 积 层 的 尺寸 和 深度 。 


— 


CONV2_DEEP = 64 


CONV2_SIZE 


I 
ol 


# 全 连接 层 的 节点 个 数 。 


FC_SIZE = 512 


# 定义 卷 积 神经 网 络 的 前 向 传播 过 程 。 这 里 添加 了 一 个 新 的 参数 train， 用 于 区 分 
训练 过 程 和 测试 


# 过 程 。 在 这 个 程序 中 将 用 到 dropout 方 法 ，dropout 可 以 进一步 提升 模型 可 靠 
性 并 防止 过 拟 合 ， 


# dropout 过 程 只 在 训练 时 使 用 。 (各 


def inference(input_tensor, train, regularizer): 


# 声明 第 一 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 个 过 程 和 6 .3.1 小 节 中 
TAS Be 


# 通过 使 用 不 同 的 命名 空间 来 隔离 不 同 层 的 变量 ， 这 可 以 让 每 一 层 中 的 变量 
命名 只 需要 


# 考虑 在 当前 层 的 作用 ， 而 不 需要 担心 重 名 的 问题 。 和 标准 LeNet -5 模型 不 
大 一 样 ， 这 里 


# 定义 的 卷 积 层 输 入 为 28x28x1 的 原始 MNIST 图 片 像素 。 因 为 卷 积 层 中 使 用 
了 全 0 填充 ， 


# 所 以 输出 为 28x28x32 的 矩阵。 
with tf.variable_scope('layeri-convi'): 
convi_weights = tf.get_variable( 


"weight", [CONV1_SIZE, CONV1 SIZE, NUM_CHANNELS, 
CONV1_DEEP], 


initializer=tf.truncated_normal_initializer(stdde 
v=0.1)) 


convi_biases = tf.get_variable( 


"bias", [CONV1_DEEP], initializer=tf. constant_in 
itializer(0.0)) 


# 使 用 边 长 为 5， 深 度 为 32 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 
0 填充 。 


convi = tf.nn.conv2d( 


input_tensor, convi_weights, strides= 


[1, 1, 1, 1], padding='SAME' ) 


relul = tf.nn.relu(tf.nn.bias_add(convi, convi_biases 


)) 


# 实现 第 二 层 池 化 层 的 前 向 传播 过 程 。 这 里 选用 最 天池 化 层 ， 池 化 层 过 滤器 的 
边 长 为 2， 


# 使 用 全 0 填充 且 移 动 的 步 长 为 2。 这 一 层 的 输入 是 上 一 层 的 输出 ， 也 就 是 
28x28x32 


# 的 矩阵 。 输 出 为 14x14x32 的 矩阵。 
with tf.name_scope('layer2-pool1'): 
pool1 = tf.nn.max_pool( 


relui, ksize=[1, 2, 2, 1], strides= 
[1, 2, 2, 1], padding='SAME' ) 


# 声明 第 三 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 14x14x32 
HS FERE ° 


# 输出 为 14x14x64 的 矩阵。 


= 


with tf.variable_scope('layer3-conv2'): 


conv2_weights = tf.get_variable( 


"weight", [CONV2_SIZE, CONV2_SIZE, CONV1_DEEP, CO 
NV2_DEEP], 


initializer=tf.truncated_normal_initializer(stdde 


v=0.1)) 


0 填充 。 


[1, 1, 


conv2_biases = tf.get_variable( 
"bias", [CONV2_DEEP], 


initializer=tf. constant_initializer(0.0)) 


# 使 用 边 长 为 5， 深 度 为 64 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 


conv2 = tf.nn.conv2d( 


pool1, conv2 weights, strides= 
1, 1], padding='SAME' ) 


relu2 = tf.nn.relu(tf.nn.bias_add(conv2, conv2_biases 


) ) 

# 实现 第 四 层 池 化 层 的 前 向 传播 过 程 。 这 一 层 和 第 二 层 的 结构 是 一 样 的 。 这 一 
层 的 输入 为 

# 14x14x64 的 和 矩阵， 输出 为 7x7x64 的 矩阵 。 

with tf.name_scope('layer4-pool2'): 

pool2 = tf.nn.max_pool( 
relu2, ksize=[1, 2, 2, 1], strides= 

[1, 2, 2, 1], padding='SAME' ) 


# 将 第 四 层 池 化 层 的 输出 转化 为 第 五 层 全 连接 层 的 输入 格式 。 第 四 层 的 输出 为 
7x7x64 的 和 矩阵 ， 


# 然而 第 五 层 全 连接 层 需要 的 输入 格式 为 向 量 ， 所 以 在 这 里 需要 将 这 个 
7x7x64 的 和 矩阵 拉 直 成 一 


# 个 向 量 。poo12.get_shape 画 数 可 以 得 到 第 四 层 输出 挫 阵 的 维度 而 不 需要 
手工 计算 。 注 意 


# 因为 每 一 层 神 经 网 络 的 输入 输出 都 为 一 个 batch 的 矩阵 ， 所 以 这 里 得 到 的 维 
度 也 包含 了 一 个 


# batch 中 数据 的 个 数 。 


pool_shape = pool2.get_shape().as_list() 


# 计算 将 矩阵 拉 直 成 向 量 之 后 的 长 度 ， 这 个 长 度 就 是 矩阵 长 宽 及 深度 的 乘积 。 
注意 这 里 


# pool_shape[9] 为 一 个 patch 中 数据 的 个 数 。 


nodes = pool_shape[1] * pool_shape[2] * pool_shape[3] 


# 通过 tf.reshape 函 数 将 第 四 层 的 输出 变 成 一 个 batch 的 向 量 。 


reshaped = tf.reshape(pool2, [pool_shape[0], nodes]) 


# 声明 第 五 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 是 拉 直 之 后 
的 一 组 向 量 ， 


# 向 量 长 度 为 3136， 输 出 是 一 组 长 度 为 512 的 向 量 。 这 一 层 和 之 前 在 第 5 章 中 


“SS 
> 
ud 
fea 
tt 


# 一 致 ， 唯 一 的 区 别 就 是 引入 了 dropout 的 概念 。dropout 在 训练 时 会 随机 
年 部 分 节点 的 


ES 


# 输出 改 为 9。 dropout 可 以 避免 过 拟 合 问 题 ， 从 而 使 得 模型 在 测试 数据 上 的 


# dropout 一 般 只 在 全 连接 层 而 不 是 卷 积 层 或 者 池 化 层 使 用 。 
with tf.variable_scope('layer5-fc1'): 
fci_weights = tf.get_variable( 
"weight", [nodes, FC_SIZE], 


initializer=tf.truncated_normal_initializer(stdd 


ev=0.1)) 
# 只 有 全 连接 层 的 权重 需要 加 入 正则 化 。 
if regularizer != None: 
tf.add_to_collection('losses', regularizer(fci_we 
ights) ) 


fci_biases = tf.get_variable( 


"bias", [FC_SIZE], initializer=tf.constant_initia 
lizer(0.1)) 


fci = tf.nn.relu(tf.matmul(reshaped, fci_weights) + f 
ci_biases) 


if train: fci = tf.nn.dropout(fc1, 0.5) 


# 声明 第 六 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 二 组 长 度 
为 512 的 向 量 ， 


# 输出 为 一 组 长 度 为 19 的 向 量 。 这 一 层 的 输出 通过 Softmax 之 后 就 得 到 了 最 
后 的 分 类 结果 。 


with tf.variable_scope('layer6-fc2'): 
fc2_weights = tf.get_variable( 
"weight", [FC_SIZE, NUM_LABELS], 


initializer=tf.truncated_normal_initializer(stdde 
v=0.1)) 


if regularizer != None: 


tf.add_to_collection('losses', regularizer(fc2_we 
ights) ) 


fc2_biases = tf.get_variable( 


"bias", [NUM_LABELS], 


initializer=tf. constant_initializer(0.1)) 


logit = tf.matmul(fc1i, fc2_weights) + fc2 biases 


# 返回 第 六 层 的 输出 。 


return logit 


运行 修改 后 的 mnist_train.py， 可 以 得 到 类 似 第 5 章 中 的 输出 : 


~/mnist$ python mnist train.py 


Extracting /tmp/data/train-images-idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1-ubyte.gz 


Extracting /tmp/data/t10k-images-idx3-ubyte.gz 


Extracting /tmp/data/t10k-labels-idxi-ubyte.gz 


After 1 training step(s), loss on 


After 
825. 


After 
993. 


After 
975. 


After 
68. 


After 
368. 


类 似 地 修改 第 5 章 中 给 出 的 mnist_eval.py 程 序 输入 部 分 ， 


1001 training step(s), 


2001 training step(s), 


3001 training step(s), 


4001 training step(s), 


5001 training step(s), 


loss 


loss 


loss 


loss 


loss 


training batch is 


on 


on 


on 


on 


on 


training batch 


training batch 


training batch 


training batch 


training batch 


6.45373. 


is 0.824 


is 0.646 


is 0.759 


is 0.684 


is 0.630 


束 可 以 测试 这 


个 卷 积 神经 网 络 在 MNIST 数 据 集 上 的 正确 率 了 。 在 MNIST 测 斌 数据 
EF， 上 面 给 出 的 卷 积 神经 网 络 可 以 达到 大 约 99.4% 的 正确 率 。 相 比 第 5 


章 中 最 高 的 98.4% 的 正确 率 ， 卷 积 神经 网 络 可 以 巨 幅 提高 神经 网 络 在 
MNIST 数 据 集 上 的 正确 率 。 


然而 一 种 卷 积 神经 网 络 染 构 不 能 解决 所 有 问题 。 比 如 LeNet-5 模 型 整 无 
法 很 好 地 处 理 类 似 ImageNet 这 样 比较 大 的 图 像 数 据 集 。 那 么 如 何 设计 
卷 积 神经 网 络 的 架构 呢 ? 下 面 的 正则 表达 式 公 式 总 结 了 一 些 经 典 的 用 
于 铭 片 分 类 问题 的 郑 积 神经 网 络 架 构 : 


Hi (EREHE! ) EER 


在 上 面 的 公式 中 , “着 积 层 +” 表 示 一 层 或 者 多 层 着 积 层 ， 大 部 分 着 积 神 
经 网 络 中 一 般 最 多 连续 使 用 三 层 卷 积 层 。“ 池 化 层 ? ”表示 没有 或 者 一 
层 池 化 层 。 池 化 层 虽 然 可 以 起 到 减少 参数 防止 过 拟 合 问 题 ， 但 古 在 音 
分 论文 中 也 发 现 可 以 直接 通过 调整 郑 积 层 步 长 来 完成 号。 所 以 有 些 着 
积 伸 经 网 络 中 没有 池 化 层 。 在 多 轮 着 积 层 和 池 化 层 之 后 ， 卷 神经 网 络 
i su 0 。 比 如 LeNet-5 模 型 就 可 以 表示 为 


A — 2M -~ uw -~ MA = l = ely H SAA yH 人 -= 
Evan El Rah il PRR PERE T 
除了 LeNet-5 模 型 20124F ImageNet ILSVRC 图 像 分 类 挑战 的 第 一 名 

AlexNet #4! > 20134F ILSVRC % — 4 ZF Net 模 型 以 及 2014 年 第 二 名 

VGGNet 模 型 的 染 构 都 满足 上 面 介 绍 的 正则 表达 式 。 表 6-1 给 出 了 

VGGNet 论文 Very Deep Convolutional Networks for Large-Scale Image 

Recognition F (E44 Zt AY E EAR A Ro MM K6-1H AY DL 

E EAERI PY 2 RY AB ENTRER IAE ° 


表 6-1 VGGNet 模 型 论文 中 尝试 过 的 卷 积 神经 网 络 架构 名 


(其 中 conv* 表 示 卷 积 层 ，maxpool 表 示 池 化 层 ，FC-* 表 示 全 连接 层 ，soft-max 为 softmax 结 
构 ) 


input (224 x 224 RGB image) 
conv3-64 conv3-64 conv3-64 conv3-64 conv3-64 conv3-64 
T] LRN conv3-64 conv3-64 conv3-64 
maxpoo 
conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 


maxpool 


conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv1-256 | conv3-256 | conv3-256 

conv3-256 


axpoo 


m 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 

conv1-512 | conv3-512 | conv3-512 


conv3-512 


conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv1-512 | conv3-512 | conv3-512 

conv3-512 


maxpool 
FC-4096 
FC-4096 
FC-1000 
soft-max 


有 了 卷 积 神经 网 络 的 架构 ， 那 么 每 一 层 卷 积 层 或 者 池 化 层 中 的 配置 需 
要 如 何 设置 呢 ? 表 6-1 也 提供 了 很 多 线索 。 在 表 6-1 中 ，convX-Y 表 示 过 
滤器 的 边 长 为 X， 深 度 为 Y。 比 如 conv3-64 表 示 过 滤器 的 长 和 宽 都 为 3， 
深度 为 64。 从 表 6-1 中 可 以 看 出 ，VGG Net 中 的 过 滤器 边 长 一 般 为 3 或 者 
1。 在 LeNet-5 模 型 中 ， 也 使 用 了 边 长 为 5 的 过 滤器 。 一 般 卷 积 层 的 过 滤 
器 边 长 不 会 超过 5， 但 有 些 卷 积 神经 网 络 结构 中 ， 处 理 输 入 的 卷 积 层 中 
使 用 了 边 长 为 7 甚至 是 11 的 过 滤器 。 


在 过 滤器 的 深度 上 ， 大 部 分 卷 积 神 经 网 络 都 采用 逐 层 递增 的 方式 。 比 
如 在 表 6-1 中 可 以 看 到 ， 每 经 过 一 次 池 化 层 之 后 ， 卷 积 层 过 滤 颖 的 深度 
会 乘 以 2。 虽 然 不 同 的 模型 会 选择 使 用 不 同 的 具体 数字 ， 但 是 逐 层 递增 
征 比 较 普 遍 的 模式 。 卷 积 层 的 步 长 一 般 为 1， 但 是 在 有 些 模 型 中 也 会 使 
用 2， 或 者 3 作为 步 长 。 池 化 层 的 配置 相对 简单 ， 用 的 最 多 的 是 最 大 池 
化 层 。 池 化 层 的 过 滤器 边 长 一 般 为 2 或 者 3， 步 长 也 一 般 为 2 或 者 3。 


6.4.2 ”Inception-v3 模 型 


在 6.4.1 小 节 中 通过 介绍 LeNet-5 模 型 整理 出 了 一 类 经 典 的 卷 积 神经 网 络 
架构 设计 。 在 这 一 小 让 中 将 介绍 Inception 结 构 以 及 Inception-v3 卷 积 神经 
网 络 模型 。Inception 结 构 是 一 种 和 LeNet-5 结 构 完 全 不 同 的 卷 积 神经 网 
络 结构 。 在 LeNet-5 模 型 中 ， 不 同 卷 积 层 通过 串联 的 方式 连接 在 一 起 ， 
而 Inception-v3 模 型 中 的 mception 结 构 是 将 不 同 的 卷 积 层 通过 并 联 的 方式 
结合 在 一 起 。 在 下 面 的 篇 幅 中 将 具体 介绍 Inception 结 构 ， 并 通过 
TensorFlow-Slim 工 具 来 实现 mception-v3 模 型 中 的 一 个 模块 。 


在 6.4.1 中 提 到 了 一 个 卷 积 层 可 以 使 用 边 长 为 1、3 或 者 5 的 过 滤 硕 ， 那 么 
如 何在 这 些 边 长 中 选 呢 ? Inception 模 块 给 出 了 一 个 方案 ， 那 丈 是 同时 使 
用 所 有 不 同 尺 寸 鸭 过 滤 锅 ， 然 后 再 将 得 到 的 矩阵 拼接 起 来 。 图 6-16 给 出 
了 Inception 模 块 的 一 个 单元 结构 示意 图 。 


输入 矩阵 Inception} [a] 44 R 输出 矩阵 


图 6-16 ”Inception 模 块 示意 图 。 


从 图 6-16 中 可 以 看 出 ，Inception 模 块 会 首先 使 用 不 同 尺 寸 的 过 滤器 人 处理 
输入 矩阵。 在 图 6-16 中 ， 最 上 方 和 矩阵 为 使 用 了 边 长 为 1 的 过 滤 希 的 卷 积 
层 前 回 传 播 的 结果 。 类 似 的 ， 中 间 窃 阵 使 用 的 过 沽 硕 边 长 为 ?3， 下 方 窍 
阵 使 用 的 过 滤器 边 长 为 5。 不 同 的 矩阵 代表 了 Inception 模 块 中 的 一 条 计 
算 路 径 。 虽 然 过 滤 锅 的 大 小 不 同 ， 但 如 果 所 有 的 过 滤 右 都 使 用 全 0 填充 
且 步 长 为 1， 那 么 前 辐 传 播 得 到 的 结果 和 抢 阵 的 长 和 宽 都 与 输入 移 阵 一 


致 。 这 样 经 过 不 同 过 滤器 处 理 的 结果 和 矩阵 可 以 拼接 成 一 个 更 深 的 矩 
阵 。 如 图 6-16 所 示 ， 可 以 将 它们 在 深度 这 个 维度 上 组 合 起 来 。 


图 6-16 所 示 的 Inception 模 块 得 到 的 结果 矩阵 的 长 和 宽 与 输入 一 样 ， 深 度 
为 红 黄 蓝 三 个 矩阵 深度 的 和 。 图 6-16 中 展示 的 是 Inception 模 块 的 核心 思 
想 ， 真 正在 Inception-v3 模 型 中 使 用 的 Inception 模 块 要 更 加 复杂 且 多 样 ， 
有 兴趣 的 读者 可 以 参考 论文 Rethinking the Inception Architecture for 
Computer Vision 号 。 图 6-17 给 出 了 Inception-v3 模 型 的 架构 图 。 


8 B 8 8 B 8 8 a a 8 00000 


图 6-17 ”Inception-v3 模 型 架构 图 


Inception-v3 模 型 总 共有 46 层 ， 由 11 个 Inception 模 块 组 成 。 图 6-17 中 方 框 
标注 出 来 的 结构 就 是 一 个 Inception 模 块 。 在 Inception-v3 模 型 中 有 96 个 卷 
积 层 ， 如 有 果 将 6.4.1 小 节 中 的 程序 直接 搬 过 来 ， 那 么 一 个 卷 积 层 束 需要 5 
行 代码 ， 于 是 总 共 需 要 480 行 代码 来 实现 所 有 的 卷 积 层 。 这 样 使 得 代码 
的 可 读 性 非常 差 。 为 了 更 好 地 实现 类 似 IPnception-v3 模 型 这 样 的 复杂 卷 
积 神经 网 络 ， 在 下 面 将 先 介绍 TensorFlow-Slim 工 具 来 更 加 简洁 地 实现 
一 个 卷 积 层 。 以 下 代码 对 比 了 直接 使 用 TensorFlow 实 现 一 个 卷 积 层 和 使 
用 TensorFlow-Slim 实 现 同样 结构 的 神经 网 络 的 代码 量 。 


# 直接 使 用 TensorFlow 原 始 API 实 现 卷 积 层 。 
with tf.variable_scope(scope_name): 
weights = tf.get_variable("weight", ...) 


biases = tf.get_variable("bias", ...) 


conv = tf.nn.conv2d(...) 


relu = tf.nn.relu(tf.nn.bias_add(conv, biases) ) 


# 使 用 TensorFlow-Slim 实 现 卷 积 屋 。 通 过 TensorFlow-Slim 可 以 在 一 行 中 实 
现 一 个 卷 积 层 


# 的 前 向 传播 算法 。 Slim.conv2d 函 数 的 有 3 个 参数 是 必 填 的 。 第 三 个 参数 为 输 
AT RSE, 3B 


# 二 参数 是 当前 卷 积 层 过 滤器 的 深度 ， 第 三 个 参数 是 过 滤器 的 尺寸 。 可 选 的 参数 有 
过 滤器 移动 的 步 


# 长 、 是 否 使 用 全 90 填充、 激活 函数 的 选择 以 及 变量 的 命名 空间 等 。 
net = slim.conv2d(input, 32, [3, 3]) 
因为 完整 的 mception-v3 模 型 比较 长 ， 所 以 在 本 书 中 仅 提 供 Inception-v3 


模型 中 结构 相对 复杂 的 一 个 Inception 模 块 的 代码 实现 钙 。 以 下 代码 实现 
本 图 6-17 中 红色 方 框 中 的 Inception 模 块 。 


# Slim.arg_scope 范 数 可 以 用 于 设置 默认 的 参数 取 值 。slim.arg_scope 函 数 
的 第 一 个 参数 是 


# 一 个 函数 列表 ， 在 这 个 列表 中 的 函数 将 使 用 默认 的 参数 取 值 。 比 如 通过 下 面 的 定 
SM, 调用 


# slim.conv2d(net, 320, [1, 1]) KAN  § 5 J Estride=1 fl 
padding=' SAME ' Ay 


# 数 。 如 果 在 函数 调用 时 指定 了 stride， 那 么 这 里 设置 的 默认 值 就 不 会 再 使 用 。 
通过 这 种 方式 


# 可 以 进一步 减少 元 余 的 代码 。 


with slim.arg_scope([slim.conv2d, slim.max_pool2d, slim.avg_ 
pool2d], 


stride=1 , padding='SAME'): 


AW 


色 


# 此 处 省 略 了 Inception-v3 模 型 中 其 他 的 网 络 结构 而 直接 实现 最 后 面 
METE 


# Inception 结 构 。 假 设 输 入 图 片 经 过 之 前 的 神经 网 络 前 向 传播 的 结果 保存 


net = 上 一 层 的 输出 节点 矩阵 


# 为 一 个 Inception 模 块 声明 一 个 统一 的 变量 命名 空间 。 


with tf.variable_scope('Mixed_7c'): 


Ht 
m 


# 给 Inception 模 块 中 每 一 条 路 径 声 明 一 个 命名 
with tf.variable_scope('Branch_0'): 
# 实现 一 个 过 滤器 边 长 为 1， 深 度 为 320 的 卷 积 层 ° 


branch 0 = slim.conv2d(net, 320, [1, 1], scope=' 
Conv2d_0a_1x1') 


# Inception 模 块 中 第 二 条 路 径 。 这 条 计算 路 径 上 的 结构 本 身 也 是 一 


个 Inception 结 


# 构 。 
with tf.variable_scope('Branch_1'): 


branch 1 = slim.conv2d(net, 384, [1, 1], scope=' 
Conv2d_0a_1x1') 


# tf.concat 函 数 可 以 将 多 个 矩阵 拼接 起 来 。tf .concat 函 数 的 
第 一 个 参数 指定 


# 了 拼接 的 维度 ， 这 里 给 出 的 “3" 代 表 了 甜 阵 是 在 深度 这 个 维度 上 
进行 拼接 。 图 6-16 


# 中 展示 了 在 深度 上 拼接 矩阵 的 方式 。 
branch 1 = tf.concat(3, [ 


# 如 图 6-17 所 示 ， 此 处 2 层 卷 积 层 的 输入 都 是 pranch_1 而 
不 是 net ° 


slim.conv2d(branch_1, 384, [1, 3], scope='Co 
nv2d_O0b_1x3'), 


slim.conv2d(branch_1, 384, [3, 1], scope='Co 
nv2d_0c_3x1')]) 


# Inception 模 块 中 第 三 条 路 径 。 此 计算 路 径 也 是 一 个 Inception 结 
构 。 


with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d( 


net, 448, [1, 1], scope='Conv2d_0a_1x1') 


3') 


), 


)]) 


的 。 


branch_2 = slim.conv2d( 


branch_2, 384, [3, 3], scope='Conv2d_ Ob_3x 


branch_2 = tf.concat(3, [ 
slim.conv2d(branch_2, 384, 


[1, 3], scope='Conv2d_0c_1x3' 


slim.conv2d(branch_2, 384, 


[3, 1], scope='Conv2d_0d_3x1' 


# Inception 模 块 中 第 四 条 路 径 。 
with tf.variable_scope('Branch_3'): 
branch_3 = slim.avg_pool2d( 
net, [3, 3], scope='AvgPool_0a_3x3' ) 
branch_3 = slim.conv2d( 


branch_3, 192, [1, 1], scope='Conv2d_ Ob_1x1 


# 当前 Inception 模 块 的 最 后 输出 是 由 上 面 四 个 计算 结果 拼接 得 到 


net = tf.concat(3, [branch_0, branch_1, branch_2, br 
anch_3]) 


6.5 “ 卷 积 神经 网 络 迁 移 学 习 


在 本 节 中 将 介绍 迁移 学 习 的 概念 以 及 如 何 通 过 TensorFlow 来 实现 迁移 学 
习 。 在 6.5.1 小 节 中 将 讲解 迁移 学 习 的 动机 ， 并 介绍 如 何 将 一 个 数据 集 
上 训练 好 的 卷 积 神经 网 络 模型 快速 转移 到 另外 一 个 数据 集 上 。 在 6.5.2 
小 闻 中 将 给 出 一 个 具体 的 TensorFlow 程 序 将 ImageNet 上 训练 好 的 
Inception-v3 模 型 转移 到 男 外 一 个 图 像 分 类 数据 集 上 。 


6.5.1 ”迁移 学 习 介 绍 


在 6.4 节 中 介绍 了 1998 年 提出 的 LeNet-5 模 型 和 2015 年 提出 的 Inception-v3 
模型 。 对 比 这 两 个 模型 可 以 发 现 ， 卷 积 神经 网 络 模型 的 层 数 和 复杂 度 
都 发 生 了 巨大 的 变化 。 表 6-2 给 出 了 从 2012 年 到 2015 年 ILSVRC (Large 
Scale Visual Recognition Challenge) 第 一 名 模型 的 层 数 以 及 前 五 个 答案 
的 错误 率 © 


表 6-2 ILSVRC 第 一 名 模型 信息 列表 


年 份 模型 名 称 FER Top fax 
2012 AlexNet 8 15.3% 
2013 ZF Net 8 14.8% 
2014 GoogLeNet 22 6.67% 
2015 ResNet 152 3.57% 


从 表 6-2 可 以 看 到 ， 随 着 模型 层 数 及 复杂 度 的 增加 ， 模 型 在 ImageNet 上 
的 错误 率 也 随 之 降低 。 然 而 ， 训 练 复 洒 的 卷 积 神经 网 络 需要 非常 多 的 
标注 数据 。 如 6.1 节 中 提 到 的 ，ImageNet 图 像 分 类 数据 集中 有 120 万 标注 
图 片 ， 所 以 才能 将 152 层 的 ResNet 的 模型 训练 到 大 约 96.5% 的 正确 率 。 
在 真实 的 应 用 中 ， 很 难 收集 到 如 此 多 的 标注 数据 。 即 使 可 以 收集 到 ， 

也 需要 花费 大 量 人 力 物 力 。 而 且 即 使 有 海量 的 训练 数据 ， 要 训练 一 个 


复杂 的 卷 积 神经 网 络 也 需要 几 天 甚至 几 周 的 时 间 。 为 了 解决 标注 数据 
和 训练 时 间 的 问题 ， 可 以 使 用 本 节 将 要 介绍 的 迁移 学 习 。 


所 谓 迁 移 学 习 ， 就 是 将 一 个 问题 上 训练 好 的 模型 通过 简单 的 调整 使 其 
适用 于 一 个 新 的 问题 。 本 小 市 将 介绍 如 何 利 用 ImageNet 数 据 集 上 训练 
好 的 Inception-v3 模 型 来 解决 一 个 新 的 图 像 分 类 问题 。 根 据 论文 DeCAF: 
A Deep Convolutional Activation Feature for Generic Visual Recognition œ 
中 的 结论 ， 可 以 保留 训练 好 的 Inception-v3 模 型 中 所 有 卷 积 层 的 参数 ， 
只 是 蔡 换 最 后 一 层 全 连接 层 。 在 最 后 这 一 层 全 连接 层 之 前 的 网 络 层 称 
之 为 瓶颈 层 (bottleneck) ° 


将 新 的 图 像 通 过 训练 好 的 卷 积 神经 网 络 直到 瓶颈 层 的 过 程 可 以 看 成 是 
对 图 像 进行 特征 提取 的 过 程 。 在 训练 好 的 Inception-v3 模 型 中 ， 因 为 将 
瓶 倾 层 的 输出 再 通过 一 个 单 层 的 全 连接 层 神 经 网 络 可 以 很 好 地 区 分 
1000 种 类 别 的 图 像 ， 所 以 有 理由 认为 瓶 绒 层 输出 的 世上 点 癌 量 可 以 被 作 
为 任何 图 像 的 一 个 更 加 精简 且 表达 能 力 更 强 的 特征 向 量 。 于 是 ， 在 新 
数据 集 上 ， 可 以 直接 利用 这 个 训练 好 的 神经 网 络 对 图 像 进行 特征 提 
取 ， 然 后 再 将 提取 得 到 的 特征 向 量 作 为 输入 来 训练 一 个 新 的 单 层 全 连 
接 神 经 网 络 处 理 新 的 分 类 问题 。 


一 般 来 说 ， 在 数据 量 足够 的 情况 下 ， 迁 移 学 习 的 效果 不 如 完全 重新 训 | 
练 。 但 是 迁移 学 习 所 需要 的 训练 时 间 和 训练 样本 数 要 远 远 小 于 训练 完 
整 的 模型 。 在 没有 GPU 名 的 普通 台式 机 或 者 笔记 本 电脑 上 ，6.5.2 小 市 
中 给 出 的 TensorFlow 训 | 练 过 程 只 需要 大 约 5 分 钟 惫 ， 而 且 可 以 达到 大 概 
90% 的 正确 率 。 


6.5.2 ”TensorFlow 实 现 迁 移 学 习 


本 小 节 将 给 出 一 个 完整 的 TensorFlow 程 序 来 介绍 如 何 通过 TensorFlow 实 
DEAE i i 习 。 以 下 代码 给 出 了 如 何 下 载 这 一 小 节 中 将 要 用 到 的 数据 


AN 


curl http://download.tensorflow.org/example_images/flower_ph 
otos.tgz 


tar xzf flower_photos.tgz 


解压 之 后 的 文件 夹 包含 了 5 个 子 文 件 夹 ， 每 一 个 子 文件 夹 的 名 称 为 一 种 
化 的 名 称 ， 代 表 了 不 同 的 类 别 。 平 均 每 一 种 伦 有 734 张 图 片 ， 每 一 张 图 
片 剖 是 RGB 色 彩 模式 的 ， 大 小 也 不 相同 。 和 之 前 的 样 例 不 同 ， 在 这 一 
小 节 中 给 出 的 程序 将 直接 处 理 没有 整理 过 的 图 像 数据 。 同 时 ， 通 过 下 
面 的 命名 可 以 下 载 谷歌 提供 的 训练 好 的 Inception-v3 模 型 。 


wget https://storage.googleapis.com/download.tensorflow.org/ 
models/\ 


inception_dec_2015.zip 


unzip tensorflow/examples/label_image/data/inception_dec_201 
5.Zip 


当 新 的 数据 集 和 已 经 训练 好 的 模型 都 准备 好 之 后 ， 可 以 通过 以 下 代码 
来 完成 迁移 学 习 的 过 程 。 


# -*- Coding: utf-8 -*- 


import glob 

import os.path 
import random 
import numpy as np 


import tensorflow as tf 


from tensorflow.python.platform import gfile 


# Inception-V3 模 型 瓶颈 层 的 节点 个 数 。 


BOTTLENECK_TENSOR_SIZE = 2048 


# Inception-v3 模 型 中 代表 瓶颈 层 结 果 的 张 量 名 称 。 在 谷歌 提供 的 
Inception-v3 模 型 中 ， 这 


# 个 张 量 名 称 就 是 'pool 3/_reshape:0'。 在 训练 的 模型 时 ， 可 以 通过 
tensor .name 来 获取 张 


# 量 的 名 称 。 


BOTTLENECK_TENSOR_NAME = 'pool_3/_reshape:0' 


# 图 像 输入 张 量 所 对 应 的 名 称 。 


JPEG_DATA_TENSOR_NAME = 'DecodeJpeg/contents:0' 


# 下 载 的 谷歌 训练 好 的 Inception-VvV3 模 型 文件 目录 。 


MODEL_DIR = '/path/to/model' 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模 型 文件 名 。 


MODEL_FILE = 'classify_image_graph_def.pb' 


# 因为 一 个 训练 数据 会 被 使 用 多 次 ， 所 以 可 以 将 原始 图 像 通过 Inception -v3 模 
型 计算 得 到 


# 的 特征 向 量 保存 在 文件 中 ， 免 去 重复 的 计算 。 下 面 的 变量 定义 了 这 些 文件 的 存放 
地 址 。 


CACHE_DIR = '/tmp/bottleneck' 
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# 存放 了 对 应 类 别 的 图 片 。 


INPUT_DATA = '/path/to/flower_data' 


# 验证 的 数据 百分比 。 


VALIDATION_PERCENTAGE = 10 


# 测试 的 数据 百分比 。 


TEST_PERCENTAGE = 10 


# 定义 神经 网 络 的 设置 。 


LEARNING_RATE = 0.01 


STEPS = 4000 


BATCH 100 


# 这 个 画 数 从 数据 文件 夹 中 读 取 所 有 的 图 片 列 表 并 按 训练 、 验 证 、 测 试 数据 分 开 。 


# testing percentage 和 Validation_ percentage 参 数 指定 了 测试 数据 集 
和 验证 数据 集 的 


# 大 小 。 


def create_image_lists(testing_percentage, validation_percen 
tage): 


# 得 到 的 所 有 图 片 都 存在 result 这 个 字典 (dictionary) 里 。 这 个 字典 的 
Key 为 类 别 的 名 


# 称 ，value 是 也 是 一 个 字典 ， 字 典 里 存储 了 所 有 的 图 片 名 称 。 


result = {} 


# 获取 当前 目录 下 所 有 的 子 目录 。 


sub_dirs = [x[0] for x in os.walk( INPUT_DATA) ] 


# 得 到 的 第 一 个 目录 是 当前 目 孙 ， 不 需要 考虑 。 


is_root_dir = True 


for sub dir in sub dirs: 


if is root dir: 


is root_dir = False 


continue 


# 获取 当前 目录 下 所 有 的 有 效 图 片 文件 。 


extensions = ['jpg', ‘'jpeg', 'JPG', 'JPEG'] 
file_list = [] 

dir_name = os.path.basename(sub_dir) 

for extension in extensions: 


file glob = os.path.join(INPUT_DATA, dir_name, '*. 
extension) 


file list.extend(glob.glob(file_glob) ) 


if not file list: continue 


# 通过 目录 名 获取 类 别 的 名 称 。 


label_name = dir_name.lower() 

# 初始 化 当前 类 别 的 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
training_images = [] 

testing_images = [] 

validation_images = [] 


for file_name in file list: 


base_name = os.path.basename(file_name) 

# 随机 将 数据 分 到 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 

chance = np.random.randint(100) 

if chance < validation_percentage: 
validation_images.append(base_name) 


elif chance < (testing_percentage + validation_percen 
tage): 


testing_images.append(base_name) 
else: 


training_images.append(base_name) 


# 将 当前 类 别 的 数据 放 入 结果 字典 。 
result[label_name] = { 
'dir': dir_name, 
'training': training_images, 
'testing': testing_images, 
'validation': validation_images, 
} 


# 返回 整理 好 的 所 有 数据 。 


return result 
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# image_ Lists 参 数 给 出 了 所 有 图 片 信息 


o 


# image_dir 参 数 给 出 了 根 目录 。 存 放 图 片 数据 的 根 目录 和 存放 图 片 特征 向 量 的 
根 目 录 地 址 不 同 。 


# label_name 参 数 给 定 了 类 别 的 名 称 。 


# index 参 数 给 定 了 需要 获取 的 图 片 的 编号 。 


# category 参 数 指定 了 需要 获取 的 图 片 是 在 训练 数据 集 、 测 试 数 据 集 还 是 验证 数 
据 集 。 


def get image path(image lists, image dir, label name, index 
, category): 


# 获取 给 定 类 别 中 所 有 图 片 的 信息 。 


label_lists = image_lists[label_name] 


# 根据 所 属 数据 集 的 名 称 获取 集 全 部 图 片 信息 。 
category_list = label_lists[category ] 
mod_index = index % len(category_list) 
# 获取 图 片 的 文件 名 。 

base_name = category_list[mod_index] 


sub_dir = label_lists['dir'] 


# 最 终 的 地 址 为 数据 根 目 


录 的 地 址 加 上 类 别 的 文件 夹 加 上 图 片 的 名 称 。 


full path = os.path.join(image_dir, sub_dir, base_name) 


return full_path 


# 这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 经 过 Inception-V3 模 型 
处 理 之 后 的 特征 向 量 
# SCPF HBL ° 


def get_bottleneck_path(image_lists, label_name, index, cate 
gory): 


return get_image_path(image_lists, CACHE_DIR, 


label_name, index, category) + '.t 
X 


# 这 个 画 数 使 用 加 载 的 训练 好 的 Inception-v3 模 型 处 理 一 张 图 片 ， 得 到 这 个 图 
片 的 特征 向 量 。 


def run_bottleneck_on_image(sess, image_data, image data ten 
sor, 


bottleneck_ tensor): 


# 这 个 过 程 实际 上 就 是 将 当前 图 片 作为 输入 计算 瓶颈 张 量 的 值 。 这 个 瓶颈 张 量 
的 值 就 是 这 


# 张 图 片 的 新 的 特征 向 量 。 


bottleneck values 


sess.run(bottleneck tensor, 


{image_data_tensor: image_ 


# 经 过 卷 积 神经 网 络 处 理 的 结果 是 一 个 四 维 数 组 ， 需 要 将 这 个 结果 压缩 成 一 个 


# 向 量 (EH) e 
bottleneck_values = np.squeeze(bottleneck values) 


return bottleneck_values 


# 这 个 函数 获取 一 张 图 片 经 过 Inception-v3 模 型 处 理 之 后 的 特征 向 量 。 这 个 画 
数 会 先 试图 寻找 


# 已 经 计算 且 保存 下 来 的 特征 向 量 ， 如 果 找 不 到 则 先 计 算 这 个 特征 向 量 ， 然 后 保存 
ds 


def get or_create bottleneck( 
sess, image_lists, label_name, index, 
category, jpeg_data_tensor, bottleneck_tensor): 
# 获取 一 张 图 片 对 应 的 特征 向 量 文件 的 路 径 。 
label_lists = image_lists[label_name] 
sub_dir = label_lists['dir'] 
sub_dir_path = os.path.join(CACHE_DIR, sub_dir) 


if not os.path.exists(sub_dir_path): os.makedirs(sub_dir_ 
path) 


bottleneck_path = get_bottleneck_path( 


image_lists, label_name, index, category) 


# 如 果 这 个 特征 向 量 文件 不 存在 ， 则 通过 Inception-v3 模 型 来 计算 特征 向 


量 ， 并 将 计算 的 结果 


r) 


alues) 


# 存 入 文件 。 


if not os.path.exists(bottleneck_path): 


# 获取 原始 的 图 片 路 径 。 
image_path = get_image_path( 


image_lists, INPUT_DATA, label_name, index, category 


# 获取 图 片 内 容 。 


image_data = gfile.FastGFile(image_path, 'rb').read() 


# 通过 Inception-v3 模 型 计算 特征 向 量 。 
bottleneck_values = run_bottleneck_on_image( 


sess, image_data, jpeg_data_tensor, bottleneck_tenso 


# 将 计算 得 到 的 特征 向 量 存 入 文件 。 


bottleneck_string = ','.join(str(x) for x in bottleneck_v 


with open(bottleneck_path, 'w') as bottleneck_file: 
bottleneck_file.write(bottleneck_string) 

alse: 

# 直接 从 文件 中 获取 图 片 相应 的 特征 向 量 。 

with open(bottleneck_path, 'r') as bottleneck_file: 
bottleneck_string = bottleneck_file.read() 


bottleneck_values = [float(x) for x in 
bottleneck_string.split(',')] 


高 


回 得 到 的 特征 向 量 。 


# 


return bottleneck_values 


# 这 个 函数 随机 获取 一 个 batch 的 图 片 作 为 训练 数据 。 
def get_random_cached_bottlenecks( 
sess, n_classes, image_lists, how_many, category, 
jpeg_data_tensor, bottleneck_tensor ) : 
bottlenecks = [] 
ground_truths = [] 


for _ in range(how_many): 


# 随机 一 个 类 别 和 图 片 的 编号 加 入 当前 的 训练 数据 。 


label_index = random.randrange(n_classes ) 


label_name = list(image_lists.keys())[label_index] 


image_index = random. randrange(65536 ) 


bottleneck = get_or_create_bottleneck( 


sess, image_lists, label_name, image_index, category, 


jpeg_data_tensor, bottleneck_tensor) 


ground_truth = np.zeros(n_classes, dtype=np.float32) 


ground_truth[label_index] = 1.0 


bottlenecks.append(bottleneck) 


ground_truths.append(ground_truth) 


return bottlenecks, ground_truths 


# 这 个 画 数 获取 全 部 的 测试 数据 。 在 最 终 测试 的 时 候 需 要 在 所 有 的 测试 数据 上 计算 
正确 率 。 


def get_test_bottlenecks(sess, image_lists, n_classes, 


jpeg_data_tensor, bottleneck_tenso 


r): 


bottlenecks = [] 


ground_truths = [] 
label_name_list = list(image_lists.keys()) 


# 枚 举 所 有 的 类 别 和 每 个 类 别 中 的 测试 图 片 。 


for label_index, label name in enumerate(label_name_list ) 


category = 'testing' 
for index, unused_base_name in enumerate( 


image_lists[label_name][category]): 


# 通过 Inception-v3 模 型 计算 图 片 对 应 的 特征 向 量 ， 并 将 其 加 入 最 终 


数据 的 列 对 


vit 
fo} 


bottleneck = get_or_create_bottleneck( 


sess, image_lists, label_name, index, category, 


jpeg_data_tensor, bottleneck_tensor ) 
ground_truth = np.zeros(n_classes, dtype=np.float32) 
ground_truth[label_index] = 1.0 
bottlenecks.append(bottleneck ) 
ground_truths.append(ground_truth) 


return bottlenecks, ground_truths 


def main(_): 


# 读 取 所 有 图 片 。 


image_lists = create_image_lists(TEST_PERCENTAGE, VALIDAT 


ION_PERCENTAGE ) 


n_classes = len(image_lists.keys()) 


# 读 取 已 经 训练 好 的 Inception-v3 模 型 。 谷 歌 训 练 好 的 模型 保存 在 了 
GraphDef Protocol 


o 


# Buffer 中 ， 里 面 保存 了 每 一 个 节点 取 值 的 计算 方法 以 及 变量 的 取 值 


TensorFlow 模 型 持 


# 久 化 的 问题 在 第 5 章 中 有 详细 的 介绍 。 


with gfile.FastGFile(os.path.join(MODEL_DIR, MODEL_FILE), 
'rb') as f: 


graph_def = tf.GraphDef() 


graph_def.ParseFromString(f.read()) 


# 加 载 读 取 的 Inception-Vv3 模 型 ， 并 返回 数据 输入 所 对 应 的 张 量 以 及 计算 瓶 
屋 结果 所 对 应 


HN 
S=H 


# 的 张 量 。 


bottleneck_tensor, jpeg_data_tensor = tf.import_graph_def 


graph_def, 


return_elements= 


[BOTTLENECK_TENSOR_NAME, JPEG_DATA_TENSOR_NAME ] ) 


# 定义 新 的 神经 网 络 输入 ， 这 个 输入 就 是 新 的 图 片 经 过 Inception-v3 模 型 前 
向 传播 到 达 瓶 颈 层 


# 是 的 节点 取 值 。 可 以 将 这 个 过 程 类 似 的 理解 为 一 种 特征 提取 。 


bottleneck_input = tf.placeholder( 
tf.float32, [None, BOTTLENECK_TENSOR_SIZE], 


name='BottleneckInputPlaceholder' ) 


# 定义 新 的 标准 答案 输入 。 
ground_truth_input = tf.placeholder( 


tf.float32, [None, n_classes], name='GroundTruthInput' ) 


# 定义 一 层 全 链接 层 来 解决 新 的 图 片 分 类 问题 。 因 为 训练 好 的 Inception-Vv3 
模型 已 经 将 原始 


# 的 图 片 抽象 为 了 更 加 容易 分 类 的 特征 向 量 了 ， 所 以 不 需要 再 训练 那么 复杂 的 
神经 网 络 来 完成 


# 这 个 新 的 分 类 任务 。 

with tf.name_scope('final_training_ops'): 

weights = tf.Variable(tf.truncated_normal( 
[BOTTLENECK_TENSOR_SIZE, n_classes], stddev=0.001) ) 


biases = tf.Variable(tf.zeros([n_classes])) 


ATE)\ 


logits = tf.matmul(bottleneck_input, weights) + biases 


final_tensor = tf.nn.softmax(logits) 
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cross_entropy = tf.nn.softmax_cross_entropy_with_logits( 
logits, ground_truth_input ) 

cross_entropy_mean = tf.reduce_mean(cross_entropy) 


train_step = tf.train.GradientDescentOptimizer(LEARNING_R 


.minimize(cross_entropy_mean) 


# 计算 正确 率 。 


with tf.name_scope('evaluation' ): 


correct_prediction = tf.equal(tf.argmax(final_tensor, 1), 


tf.argmax(ground_truth_input, 1) 


evaluation_step = tf.reduce_mean( 


tf.cast(correct_prediction, tf.float32) ) 


with tf.Session() as sess: 
init = tf.initialize_all_variables() 


sess.run(init) 


# 训练 过 程 。 


F 


for i in range(STEPS): 
# 每 次 获取 一 个 batch 的 训练 数据 。 
train_bottlenecks, train_ground_truth = \ 
get_random_cached_bottlenecks( 
sess, n_classes, image_lists, BATCH, 


'training', jpeg_data_tensor, bottleneck_te 
nsor ) 


sess.run(train_step, 


feed_dict= 
{bottleneck_input: train_bottlenecks, 


ground_truth_input: train_g 
round_truth}) 


# 在 验证 数据 上 测试 正确 率 。 


if i % 100 == © or i+ 1 == STEPS: 


validation_bottlenecks, validation_ground_truth = 


get_random_cached_bottlenecks( 
sess, n_classes, image_lists, BATCH, 


'validation', jpeg_data_tensor, bottle 
neck_tensor) 


validation_accuracy = sess.run( 
evaluation_step, feed_dict={ 
bottleneck_input: validation_bottlenecks, 


ground_truth_ input: validation_ground 


_truth}) 
print('Step %d: Validation accuracy on random sam 
pled ' 
'%d examples = %.17%%' % 
(i, BATCH, validation_accuracy * 100)) 
# 在 最 后 的 测试 数据 上 测试 正确 率 。 
test_bottlenecks, test_ground_truth = get_test_bottle 
necks( 


sess, image_lists, n_classes, jpeg_data_tensor, 


bottleneck_tensor ) 


test_accuracy = sess.run(evaluation_step, 


bottleneck_input: 


ground_truth_input: test_ground_truth}) 


print('Final test accuracy 


* 100)) 


if _name_ == ' main _': 


tf.app.run() 


test_bottlenecks, 


feed_dict={ 


= %.17%%' % (test_accuracy 


运行 上 面 的 程序 将 需要 大 约 40 分 钟 《数据 处 理 35 分 钟 ， 训 练 5 分 钟 ) ， 


可 以 得 到 类 似 下 面 的 结 采 : 


Step 0: Validation accuracy on random sampled 100 examples = 


44.0% 


Step 200: Validation 
79.0% 


Step 400: Validation 
= 85.0% 


Step 600: Validation 
92.0% 


Step 800: Validation 
= 87.0% 


accuracy on 


accuracy on 


accuracy on 


accuracy on 


random 


random 


random 


random 


sampled 100 


sampled 100 


sampled 100 


sampled 100 


examples 


examples 


examples 


examples 


Step 1000: Validation accuracy on random sampled 100 example 


S = 93.0% 


Step 3999: Validation accuracy on random sampled 100 example 
S = 94.0% 


Final test accuracy = 93.6% 


从 上 面 的 结 末 可 以 看 到 ， 模 型 在 新 的 数据 集 上 很 快 能 够 收敛 ， 并 达到 
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小 结 


在 本 章 中 详细 介绍 了 如 何 通 过 卷 积 神经 网 络 解决 图 像 识别 问题 。 首 
和 完 ， 在 6.1 市 中 讲解 了 什么 古 图 像 识 别 问题 ， 并 介绍 了 图 像 识 别 问题 中 
的 一 些 经 典 公 开 数 据 集 。 在 这 一 市 中 介绍 了 不 同 算法 在 这 些 公 开 数 据 
集 上 的 表现 ， 并 指出 卷 积 神经 网 络 给 这 个 领域 市 来 了 质 的 飞越 。 接 
着 ， 在 6.2 世 中 介绍 了 卷 积 神经 网 络 的 基本 思想 。 在 这 一 中 指出 了 全 
连接 神经 网 络 在 处 理 图 像 数据 上 的 不 足 之 处 ， 并 给 出 了 经 典 的 卷 积 神 
经 网 络 中 包含 的 不 同 网 络 结构 。 


在 6.3 节 中 详细 讲述 了 卷 积 神经 网 络 中 比较 重要 的 两 个 网 络 结 构 卷 
积 层 和 池 化 层 。 丁 详细 介绍 了 这 两 种 网 络 结构 的 前 辐 传 播 算法 ， 并 
给 出 了 TensorFlow 中 的 代码 实现 。 在 6.4 广 中， 通过 两 种 经 典 的 卷 积 神 
经 网 络 模型 介绍 了 如 何 设计 一 个 卷 积 神经 网 络 的 架构 ， 并 介绍 了 配置 
卷 积 层 和 池 化 层 中 设置 的 一 些 经 验 。 在 这 一 万 中 给 出 了 一 个 完成 的 
TensorFlow 程 序 来 实现 LeNet-5 模 型 ， 通 过 这 个 模型 可 以 将 MNIST 数 据 
集 上 的 正确 率 进 一 步 提 升 到 大 约 99.4%。 这 一 志 中 还 简单 介绍 了 
TensorFlow-Slim 工 具 ， 通 过 这 个 工具 可 以 巨 幅 提高 实现 复杂 神经 网 络 
的 编程 效率 。 最 后 在 6.5 节 中 ， 介 绍 了 迁移 学 习 的 概念 并 给 出 了 一 个 完 
整 的 TensorFlow 来 实现 迁移 学 习 。 通 过 迁移 学 习 ， 可 以 使 用 少量 训练 数 
据 在 短 时 间 内 训练 出 效果 还 不 错 的 神经 网 络 模 型 。 


在 这 一 章 中 ， 通 过 图 像 识 别 问 题 介 绍 了 卷 积 神经 网 络 。 通 过 这 种 特殊 
结构 的 神经 网 络 ， 可 以 将 图 像 识 别 问题 的 准确 率 提高 到 一 个 新 的 层 
次 。 除 了 改进 模型 ，TensorFlow 还 提供 了 很 多 图 像 处 理 的 函数 以 方便 图 
像 处 理 。 在 第 7 划 中 将 具体 介绍 这 些 函 数 。 同 时 也 将 介绍 如 何 使 用 
TensorFlow 更 好 地 处 理 输 入 数据 。 


(1)_ 详情 请 参考 论文 Learning Semantic Representations Using Convolutional Neural Networks 


for Web Search ` A Deep Architecture for Semantic Parsing ` A Convolutional Neural Network for 


Modelling Sentences ¥Convolutional Neural Networks for Sentence Classification ° 


(2)_ 参见 : Wallach I, Dzamba M, Heifets A. AtomNet: A Deep Convolutional Neural Network for 
Bioactivity Prediction in Structure-based Drug Discovery [J]. Mathematische Zeitschrift, 2015. 


(3)_ 参见 : Liu Y, Racah E, Prabhat, et al. Application of Deep Convolutional Neural Networks for 
Detecting Extreme Weather in Climate Datasets [J]. 2016. 


(4). 参见: Clark C, Storkey A. Teaching Deep Convolutional Neural Networks to Play Go [J]. Eprint 
Arxiv, 2015. 


(5)_ 数字 来 源 于 http://yann.lecun.com/exdb/mnist ° 


(6) .人工 标注 错误 率 参 见 : Simard P, Lecun Y, Denker J S. Efficient Pattern Recognition Using a 
New Transformation Distance [M]// Advances in Neural Information Processing Systems (NIPS 
1992). 1993. 


D 更 多 关于 图 像 词 典 项 目的 介绍 可 以 参考 其 官方 网 站 


http://groups.csail.mit.edu/vision/TinyImages ° 


(8). MNIST 数 据 集中 每 一 张 图 片 只 包含 一 个 数字 ; Cifar-10 和 Cifar-100 数 据 集中 每 一 张 图 片 只 包 
含 一 个 种 类 的 物体 。 


(9), 人 工 标注 的 准 


ES 


率 来 自 技 术 博 客 http:Wtorch.ch/blog/2015/07/30/cifarhtml ° 


(10)_ 具体 数字 出 自 : Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All 
Convolutional Net [J]. Eprint Arxiv, 2014. 


(11)_ WordNet 是 一 个 大 型 英语 语义 网 ， 里 面 将 名 词 、 动 词 、 形 容 词 和 副词 整理 成 了 同义词 集 ， 


并 标注 了 不 同 同义词 集 之 间 的 关系 。WordNet 具 体 信息 可 以 参考 WordNet 官 网 : 


https://wordnet.princeton.edu/ ° 


(12)_ ImageNet 中 


图 片 的 具体 整理 和 标注 方式 可 以 参考 : Deng J, Dong W, Socher R, et al. 


ImageNet: A large-scale hierarchical image database [C]// Computer Vision and Pattern Recognition, 
2009. CVPR 2009. IEEE Conference on. IEEE, 2009. 


(13) 此 图 片 来 自 于 ImageNet 官 方 网 站 。 


(4)_ 第 8 章 将 介绍 循环 神经 网 


L 
Aea 


[e] 


(15)_ 在 第 4 章 的 图 4-5 中 介绍 了 神经 元 的 结构 。 


(16)_ 在 RGB 色彩 模式 下 ， 


(17)_ 此 图 片 来 自 斯 坦 福 大 学 在 线 卷 积 神经 网 


networks/ 


(18)_ 此 处 全 


(19)_ 池 化 层 主要 用 于 减 小 矩阵 的 长 和 宽 。 虽 然 池 化 层 也 可 以 减 /| 


EB TRA 


o 


j=; 
| 


\ 会 这 样 


(20) 有 研究 指出 池 化 


使 用 。 


hE 2 


IHE 


上 都 有 亮度 值 ， 


了 完整 的 图 像 是 由 红色 、 绿 色 和 蓝 色 3 个 通道 组 成 的 。 因 为 每 个 通 


所 以 整个 图 片 束 可 以 表示 成 一 个 三 维和 矩阵 。 


教程 http://cs231n.github.io/convolutional- 


0 填充 的 方式 和 TensorFlow 中 实现 的 方式 略 有 不 同 ， 


但 是 原理 是 一 样 的 。 


\ 和 矩阵 深度 ， 但 是 实践 中 一 般 


屋 对 模型 效果 的 影响 不 大 ， 具 体 细 市 可 以 参考 : Springenberg J T, 


Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional Net [J]. Eprint Arxiv, 
2014. 不 过 目前 主流 的 卷 积 神经 网 络 模型 中 都 含有 池 化 层 。 


U 


(21)_ Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition 
[J]. Proceedings of the IEEE, 1998. 


(22)_ 此 图 片 来 


自 论 文 Gradient-based learning applied to document recognition ° 


(23)_ 论文 GradientBased Learning Applied to Document Recognition 提出 的 LeNet-5 模 型 中 ， 卷 积 


ATE 


层 的 实现 与 6.3 节 中 介 


绍 的 TensorFlow 的 实现 有 细微 的 区 


入 ， 而 是 着 重 介 绍 模型 的 整体 框 染 


X HI), 


本 书 不 过 多 的 讨论 具体 细 


(24)_ LeNet-5 模 型 论文 中 最 后 一 层 输 出 层 的 结构 和 全 连接 层 有 区 别 ， 但 我 们 这 用 全 连接 层 近 似 


的 表示 。 


(25)_ 关于 dropout 的 详情 可 以 参考 论文 Hinton G E, Srivastava N, Krizhevsky A, et al. Improving 


neural networks by preventing co-adaptation of feature detectors [J]. Computer Science, 2012. 


(26) 具体 可 以 参考 论文 Striving for Simplicity: The All Convolutional Net ° 


(27) Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image 
Recognition [J]. Computer Science, 2014. 


(28)_ 此 表 源 自 论文 Very Deep Convolutional Networks for Large-Scale Image Recognition ° 


(29)_ Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the Inception Architecture for Computer 
Vision[J]. Computer Science, 2015. 


(30)_ 在 TensorFlow 的 GitHub 代 码 库 上 找到 完整 的 Inception-v3 模 型 的 源码 。GitHub 的 地 址 为 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/slim/nets/incepti 


on_v3.py ° 


(31) 在 这 里 层 数 只 计算 了 卷 积 层 和 全 连接 层 的 个 数 ， 没 有 参数 的 池 化 层 没 有 包括 在 内 。 


Hl 


(32)_ Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Feature for 
Generic Visual Recognition [J]. Computer Science, 2013. 


(33)_ 第 10 章 将 介绍 TensorFlow 如 何 使 用 GPU 加 速 训练 过 程 。 


(34)_ 数据 下 载 和 数据 预 处 理 的 时 间 没 有 计算 在 内 。 


第 7 章 ”图 像 数 据 处 理 


在 第 6 章 中 详细 介绍 了 卷 积 神经 网 络 ， 并 提 到 通过 卷 积 神经 网 络 给 图 像 
识别 技术 带 来 了 突破 性 进展 。 这 一 章 将 从 另外 一 个 维度 来 进一步 提升 
图 像 识 别 的 精度 以 及 训练 的 速度 。 喜 欢 摄影 的 读者 都 知道 图 像 的 亮 
度 、 对 比 度 等 属性 对 图 像 的 影响 是 非常 大 的 ， 相 同 物体 在 不 同 亮度 、 
对 比 度 下 差别 非常 大 。 然 而 在 很 多 图 像 识 别 问题 中 ， 这 些 因素 部 不 应 
该 影响 最 后 的 识别 结果 。 所 以 本 章 将 介绍 如 何 对 图 像 数 据 进 行 预 处 理 
使 训练 得 到 的 神经 网 络 模型 尽 可 能 小 地 被 无 天 因素 所 影响 。 但 与 此 同 


时 ， 复 杂 的 预 处 理 过 程 可 能 导致 训练 效率 的 下 降 。 为 了 减 小 预 处 理 对 
于 训练 速度 的 影响 ， 在 本 章 中 也 将 详细 地 介绍 TensorFlow 中 多 线程 处 理 
输入 数据 的 解决 方案 。 


本 间 将 根据 数据 预 处 理 的 先后 顺序 来 组 织 不 同 的 小 节 。 首 先 在 7.1 闻 中 
将 介绍 如 何 统 一 输入 数据 的 格式 ， 使 得 在 之 后 系统 中 可 以 更 加 方便 地 
处 理 。 来 自 实 际 问题 的 数据 往往 有 很 多 格式 和 属性 ， 这 一 市 将 介绍 的 
TFRecord 格 式 可 以 统一 不 同 的 原始 数据 格式 ， 并 更 加 有 区 地 管理 不 同 
的 属性 。 接 着 在 7.2 节 中 将 介绍 如 何 对 图 像 数据 进行 预 处 理 。 这 一 将 
列举 TensorFlow 文 持 的 图 像 处 理 函 数 ， 并 介绍 如 何 使 用 这 些 处 理 方式 来 
弱化 与 图 像 识 别 无 关 的 因素 。 复 杂 的 图 像 处 理 函 数 有 可 能 降低 训练 的 
速度 ， 为 了 加 速 数据 预 处 理 过 程 ，7.3 节 将 完整 地 介绍 TensorFlow 多 线 
程 数 据 预 处 理 流 程 。 在 这 一 中 将 首先 介绍 TensorFLow 中 多 线程 和 队 
列 的 概念 ， 这 是 TensorFlow 多 线程 数据 预 处 理 的 基本 组 成 部 分 。 然 后 将 
具体 介绍 数据 预 处 理 流程 中 的 每 个 部 分 。 在 本 节 的 最 后 将 给 出 一 个 完 
整 的 多 线程 数据 预 处 理 流程 图 和 程序 框架 。 


7.1 TFRecord 输 入 数据 格式 


TensorFlow 提 供 了 一 种 统一 的 格式 来 存储 数据 ， 这 个 格式 就 是 
TFRecord。6.5 广 给 出 了 一 个 程序 来 处 理 花 朱 分 类 的 数据 。 在 这 个 程序 
中 ， 使 用 了 一 个 从 类 别名 称 到 所 有 数据 列表 的 词典 来 维护 图 像 和 类 别 
的 关系 。 这 种 方式 的 可 扩展 性 非常 差 ， 当 数据 来 源 更 加 复杂 、 每 一 个 
样 例 中 的 信息 更 加 丰富 之 后 ， 这 种 方式 束 很 难 有 效 地 记录 输入 数据 中 
的 信息 了 。 于 是 TensorFlow 提 供 了 TFRecord 的 格式 来 统一 存储 数据 。 这 
一 节 将 介绍 如 何 使 用 TFRecord 来 统一 输入 数据 的 格式 。 


7.1.1 TFRecord 格 式 介 绍 


TFRecord 文 件 中 的 数据 都 是 通过 tf.train.Example Protocol Buffer 的 格式 
存储 的 。 以 下 代码 给 出 了 tf.train.Example 的 定义 。 


message Example { 


Features features = 1; 


message Features { 


map<string, Feature> feature = 1; 


message Feature { 

oneof kind { 
BytesList bytes_list = 1; 
FloatList float_list = 2; 
Int64List int64_list = 3; 


} 


从 以 上 代码 可 以 看 出 tf.train.Example 的 数据 结构 是 比较 简洁 的 。 
tf.train.Example 中 包含 了 一 个 从 属性 名 称 到 取 值 的 字典 。 其 中 属性 名 称 
为 一 个 字符 串 ， 属 性 的 取 值 可 以 为 字符 串 (BytesList) ， 实 数列 表 

(FloatList) 或 者 整数 列表 (Int64List) 。 比 如 将 一 张 解码 前 的 图 像 存 
为 一 个 字符 串 ， 图 像 所 对 应 的 类 别 编 号 存 为 整数 列表 。 在 7.1.2 小 市 中 
将 给 出 一 个 使 用 TFRecord 的 具体 样 例 。 


7.1.2 ”TFRecord 样 例 程序 


本 小 节 将 给 出 具体 的 样 例 程序 来 读 写 TFRecord 文 件 。 下 面 的 程序 给 出 
了 如 何 将 MNIST 输 入 数据 转化 为 TFRecord 的 格式 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data 


import numpy as np 


# 生成 整数 型 的 属性 。 


def _int64 _feature(value): 


return tf.train.Feature(int64_list=tf.train.Int64List (value= 
[value] )) 


# 生成 字符 串 型 的 属性 。 


def _bytes_feature(value): 


return tf.train.Feature(bytes_list=tf.train.BytesList (value= 
[value] ) ) 


mnist = input_data.read_data_sets( 


"/path/to/mnist/data", dtype=tf.uint8, one_hot=True) 


images = mnist.train.images 


# 训练 数据 所 对 应 的 正确 答案 ， 可 以 作为 一 个 属性 保存 在 TFRecord 中 。 


labels = mnist.train.labels 
# 训练 数据 的 图 像 分 辨 率 ， 这 可 以 作为 Examp1le 中 的 一 个 属性 。 
pixels = images.shape[1] 


num_examples = mnist.train.num_examples 


# 输出 TFRecord 文 件 的 地 址 。 


filename = "/path/to/output.tfrecords" 


# 创建 一 个 writer 来 写 TFRecord 文 件 。 


writer = tf.python_io.TFRecordwriter (filename ) 


for index in range(num_examples): 


# FERRIER MEET ° 


image_raw = images[index].tostring() 


# 将 一 个 样 例 转化 为 Example Protocol Buffer， 并 将 所 有 的 信息 写 入 这 个 数 
据 结构 。 


example = tf.train.Example(features=tf.train.Features(featur 


e={ 
"pixels': _int64_feature(pixels), 
‘label': _int64_feature(np.argmax(labels[index])), 


‘image_raw': _bytes_feature(image_raw)}) ) 


# 将 一 个 Example 写 入 TFRecord 文 件 。 
writer.write(example.SerializeToString() ) 


writer.close() 


以 上 程序 可 以 将 MNIST 数 据 集中 所 有 的 训练 数据 存储 到 一 个 TFRecord 
文件 中 。 当 数据 量 较 大 时 ， 也 可 以 将 数据 写 入 多 个 TFRecord 文 件 。 
TensorFlow 对 从 文件 列表 中 读 取 数据 提供 了 很 好 的 支持 ， 在 7.3.2 小 慷 中 
将 详细 介绍 。 以 下 程序 给 出 了 如 何 读 取 TFRecord 文 件 中 的 数据 。 


import tensorflow as tf 


# 创建 一 个 reader 来 读 取 TFRecord 文 件 中 的 样 例 。 


reader = tf.TFRecordReader() 


# 创建 一 个 队列 来 维护 输入 文件 列表 ， 在 7.3 .2 小 让 中 将 更 加 详细 的 介绍 


= 


# tf.train.string_input_produceriA%yX ° 
filename_queue = tf.train.string_input_producer ( 


["/path/to/output.tfrecords" | ) 


# 从 文件 中 读 出 一 个 样 例 。 也 可 以 使 用 read_up_to 函 数 一 次 性 读 取 多 个 样 例 。 


_, serialized_example = reader.read(filename_queue) 


# 解析 读 入 的 一 个 样 例 。 如 果 需 要 解析 多 个 样 例 ， 可 以 用 parse_example 函 数 。 
features = tf.parse_single_example( 
serialized_example, 


features={ 


= 
am 
| 
in 


# TensorFlow 提 供 两 种 不 同 的 属性 解析 方法 。 


tf.FixedLenFeature, 


# 这 种 方法 解析 的 结果 为 一 个 Tensor。 另 一 种 方法 是 
tf.VarLenFeature， 这 种 方法 


# 得 到 的 解析 结果 为 SparseTensor， 用 于 处 理 稀 疏 数 据 。 这 里 解析 数据 
的 格式 需要 和 


# 上 面 程序 写 入 数据 的 格式 一 致 。 
‘image_raw': tf.FixedLenFeature([], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 


‘label': tf.FixedLenFeature([], tf.int64), 


}) 


# tf.decode_raw 可 以 将 字符 串 解析 成 图 像 对 应 的 像素 数组 。 


images = tf.decode_raw(features['image_raw'], tf.uint8) 
labels = tf.cast(features['label'], tf.int32) 


pixels = tf.cast(features['pixels'], tf.int32) 


sess = tf.Session() 


# 启动 多 线程 处 理 输入 数据 ，7 .3 节 将 更 加 详细 地 介绍 TensorF1Low 多 线程 处 理 。 
coord = tf.train.Coordinator() 


threads = tf.train.start_queue_runners(sess=sess, coord=coor 
d) 


# 每 次 运行 可 以 读 取 TFRecord 文 件 中 的 一 个 样 例 。 当 所 有 样 例 都 读 完 之 后 ， 在 此 
样 例 中 程序 


# 会 在 重头 读 取 。 


for i in range(10): 


image, label, pixel = sess.run([images, labels, pixels]) 


7.2 图像 数 据 处 理 


在 之 前 的 几 章 中 多 次 使 用 到 了 图 像 识别 数据 集 。 然 而 在 之 前 的 章节 中 
都 是 直接 使 用 图 像 原始 的 像 双 矩阵。 这 一 太 将 介绍 图 像 的 预 处 理 过 
程 。 通 过 对 图 像 的 预 处 理 ， 可 以 尽量 避免 模型 受到 无 天 因 素 的 影响 。 
在 大 部 分 图 像 识 别 问 题 中 ， 通 过 图 像 预 处 理 过 程 可 以 提高 模型 的 准确 
率 。 在 7.2.1 小 节 中 将 先 介 绍 TensorFlow 提 供 的 主要 图 像 处 理 函 数 ， 并 给 
出 具体 图 像 在 处 理 前 和 处 理 后 的 变化 让 读者 有 一 个 直观 的 了 解 。 然 后 
在 7.2.2 小 方 中 将 给 出 一 个 完整 的 图 像 预 处 理 流程 。 


7.2.1 TensorFlow HAERA 


TensorFlow#e tt T JLAS sb BEEN a, LEAR) EG — — fea EER 
处 理 函 数 。 


图 像 编 码 处 理 


在 之 前 的 草 廊 中 提 到 一 张 RGB 色 彩 模式 的 图 像 可 以 看 成 一 个 三 维 矩 
阵 ， 和 矩阵 中 的 每 一 个 数 表示 了 图 像 上 不 同位 置 ， 不 同 颜色 的 亮度 。 然 
而 图 像 在 存储 时 并 不 是 直接 记 杂 这 些 和 矩阵 中 的 数字 ， 而 是 记 杂 经 过 压 
缩编 码 之 后 的 结果 。 所 以 要 将 一 张 图 像 还 原 成 一 个 三 维和 矩阵 ， 需 要 解 
码 的 过 程 。TensorFlow 提 供 了 对 jpeg 和 png 格 式 图 像 的 编码 /解码 函数 。 
下 代码 示范 了 如 何 使 用 TensorFlow 中 对 jpeg 格 式 图 像 的 编码 /解码 函 


# matplot1ib.pyplot 是 一 个 python 的 画图 工具 2-。 在 这 一 节 中 将 使 用 这 个 
工具 来 可 视 


# 化 经 过 TensorFlow 处 理 的 图 像 。 
import matplotlib.pyplot as plt 


import tensorflow as tf 


# 读 取 图 像 的 原始 数据 ° 


image_raw_data = tf.gfile.FastGFile("/path/to/picture", 'r') 
.read() 


with tf.Session() as sess: 


# 将 图 像 使 用 jpeg 的 格式 解码 从 而 得 到 图 像 对 应 的 三 维和 矩阵 。TensorFlow 
ie 


# tf.image.decode png 函数 对 png 格 式 的 图 像 进行 解码 。 解码 之 后 的 结果 
# 张 量 ， 在 使 用 它 的 取 值 之 前 需要 明确 调用 运行 的 过 程 。 


img_data = tf.image.decode_jpeg(image_raw_data) 


print img_data.eval() 


# ARS ZS, Ek AT A PAN e 


[[[165 160 138] 


[105 140 50]] 


[[166 161 139] 


ony 


[106 139 48]] 


[[207 200 181] 


[106 81 50]]] 


# 使 用 pyplot 工 具 可 视 化 得 到 的 图 像 。 可 以 得 到 图 7-1 中 展示 了 的 图 像 。 
plt.imshow(img_data.eval()) 


plt.show( ) 


# 将 数据 的 类 型 转化 成 实数 方便 下 面 的 样 例 程序 对 图 像 进行 处 理 。 


img_data = tf.image.convert_image_dtype(img_data, dtype=t 
f.float32) 


# 将 表示 一 张 图 像 的 三 维 矩 阵 重新 按照 jpeg 格 式 编 码 并 存 入 文件 中 。 打 开 这 


张 图 像 ， 


# 可 以 得 到 和 原始 图 像 一 样 的 图 像 。 
encoded_image = tf.image.encode_jpeg(img_data) 
with tf.gfile.GFile("/path/to/output", "wb") as f: 


f.write(encoded_image.eval() ) 


图 7-1 显 示 了 上 面 代码 可 视 化 出 来 的 一 张 图 像 ， 在 下 面 的 篇 幅 中 将 继续 
使 用 这 张 图 像 来 介绍 TensorFlow 其 他 图 像 处 理 的 函数 。 


图 7-1 本 节 样 例 代码 中 使 用 到 的 原始 图 像 包 


图 像 大 小 调整 


一 般 来 说 ， 网 络 上 获取 的 图 像 大 小 是 不 固定， 但 神经 网 络 输入 节点 的 
个 数 是 固定 的 。 所 以 在 将 图 像 的 像素 作为 输入 提供 给 神经 网 络 之 前 ， 

需要 移 将 图 像 的 大 小 统一 。 这 驶 旦 图 像 大 小 调整 需要 完成 的 任务 。 图 
像 大 小 调整 有 两 种 方式 ， 第 一 种 是 通过 算法 使 得 新 的 图 像 尽量 保存 原 
始 图 像 上 的 所 有 信息 。TensorFlow 提 供 了 四 种 不 同 的 方法 ， 并 且 将 它们 
和 冯 到 了 tfimage.resize_images 函 数 。 以 下 代码 示范 了 如 何 使 用 这 个 画 


# 加 载 原始 图 像 ， 定 义 会 话 等 过 程 和 图 像 编 码 处 理 中 代码 一 致 ， 在 下 面 的 样 例 
中 就 全 部 略 去 了 ， 


# 假设 img_data 是 已 经 解码 且 进 行 过 类 型 转化 的 图 像 。 


# 通过 tf.image.resize_images 函 数 调 整 图 像 的 大 小 。 这 个 函数 第 一 个 参 
数 为 原始 图 像 ， 


# 第 二 个 和 第 三 个 参数 为 调整 后 图 像 的 大 小 ，method 参 数 给 出 了 调整 图 像 大 
小 的 算法 。 


resized = tf.image.resize_images(img_data, [300, 300], me 
thod=0 ) 


# 输出 调整 后 图 像 的 大 小 ， 此 处 的 结果 为 (300，300，? )。 表 示 图 像 的 大 小 
是 300x300， 


# 但 图 像 的 深度 在 没有 明确 设置 之 前 会 是 问号 。 
print img_data.get_shape() 
# 通过 pyplot 可 视 化 的 过 程 和 图 像 编码 处 理 中 给 出 的 代码 一 致 ， 在 以 下 代码 
中 也 将 略 去 ° 
表 7-1 给 出 了 tf.image.resize_images 函 数 的 method 参 数 取 值 对 应 的 图 像 大 
小 调整 算法 。 图 7-2 对 比 了 不 同 大 小 调整 算法 得 到 的 结 
表 7-1 tf.image.resize_images 函 数 中 method 参 数 取 值 与 相对 应 的 图 像 大 小 调整 算法 


Method 取 值 图 像 大 小 调整 算法 

0 双 线 性 插值 法 (Bilinear interpolation) _ 

1 最 近邻 居 法 ( Nearest neighbor 
interpolation) _ m 

2 双 三 次 插值 法 (Bicubic interpolation) _ 


(5 


3 面积 插值 法 (Area interpolation) 


原始 图 像 (a) 双 线 性 插值 法 (b) 


双 三 次 插值 法 (d) 面积 插值 法 (e) 


图 7-2 ”使 用 tf.image.resize_images 函 数 中 不 同 图 像 大 小 调整 算法 的 效果 对 比 图 


从 图 7-2 中 可 以 看 出 ， 不 同 算法 调整 出 来 的 结果 会 有 细微 差别 ， 但 不 会 
相差 太 远 。 除 了 将 整 张 图 像 信 息 完 整 保存 ，TensorFlow 还 提供 了 API 对 
图 像 进行 裁剪 或 者 填充 。 以 下 代码 展示 了 通过 
tf.image.resize_image_with_crop_or pad 函数 来 调整 图 像 大 小 的 功能 。 


= # 通过 tf,image,resize_image_with_crop_or_pad 函 数 调整 图 像 的 大 小 。 
这 个 画 数 的 


# 第 一 个 参数 为 原始 图 像 ， 后 面 两 个 参数 是 调整 后 的 目标 图 像 大 小 。 如 有 果 原 始 图 像 
的 尺寸 大 于 目标 


# 图 像 ， 那 么 这 个 函数 会 自动 截取 原始 图 像 中 居中 的 部 分 (如 图 7-3(b) 所 示 ) ° 
如 有 果 目 标 图 像 


# 大 于 原始 图 像 ， 这 个 函数 会 自动 在 原始 图 像 的 四 周 填 充 全 9 背景 (如 图 7-3(c) 
所 示 ) 。 因为 原 


# 始 图 像 的 大 小 为 1797x2673， 所 以 下 面 的 第 一 个 命令 会 自动 剪裁 ， 而 第 二 个 命 
令 会 自动 填充 ? 


croped = tf.image.resize_image_with_crop_or_pad(img_data, 10 
00, 1000) 


padded = tf.image.resize_image_with_crop_or_pad(img_data, 30 
00, 3000) 


300 1000 1500 


原始 图 像 (a) 自动 裁剪 到 1000x1000 (b) 自动 填充 到 3000x3000 (c) 


2000 2500 3000 


图 7-3 ”使 用 tf.image.resize_image_with_crop_or_pad 函 数 调 整 图 像 大 小 结果 对 比 图 


TensorFlow 还 文 持 通 过 比例 调整 图 像 大 小 ， 以 下 代码 给 出 了 一 个 样 例 。 


# 通过 tf,image. central_crop Hav ay LATE LL PREY AR ° ik SRA 
个 参数 为 原始 图 


# 像 ， 第 二 个 为 调整 比例 ， 这 个 比例 需要 是 一 个 (9,1] 的 实数 。 图 7-4(b) 中 显示 
了 调整 之 


# 后 的 图 像 。 


central_cropped = tf.image.central_crop(img_data, 0.5) 


上 面 介 绍 的 图 像 裁剪 函数 都 是 截取 或 者 填充 图 像 中 间 的 部 分 。 
TensorFlow 也 提供 了 tf.image.crop to bounding box kK 数 和 
tf.image.pad_to_bounding_box H ZR BY # BM a TAFE ZA EX BLA AR ° 这 
两 个 函数 都 要 求 给 出 的 尺 二 满足 一 定 的 要 求 ， 否 则 程序 会 报错 。 比 如 
IE H tf.image.crop_to_bounding boxEKaXAY , TensorFlow224<#e kay Al 
像 尺 寸 要 大 于 目标 尺寸 ， 也 就 是 要 求 原始 图 像 能 够 裁剪 出 目标 图 像 的 
大 小 。 这 里 瓯 不 再 给 出 每 个 图 数 的 具体 样 例 ， 有 兴趣 的 读者 可 以 目 行 
参考 TensorFlow 的 API 文 档 。 


原始 图 像 (a) 截取 中 间 50% 的 图 像 (b) 


图 7-4 ”使 用 tt.image. central_crop 画 数 调整 图 像 大 小 结果 对 比 图 


图 像 翻 转 


TensorFlow 提 供 了 一 些 函 数 来 文 持 对 图 像 的 翻转 。 以 下 代码 实现 了 将 图 
像 上 下 翻转 、 左 右 翻转 以 及 沿 对 角 线 翻转 的 功能 。 


# 将 图 像 上 下 翻转 ， 翻 转 后 的 效果 见 图 7-5(b) 。 

flipped = tf.image.flip_up_down(img_data) 

# 将 图 像 左右 翻转 ， 翻 转 后 的 效果 见 图 7-5(c)。 

flipped = tf.image.flip_left_right (img_data) 
H 将 图 像 沿 对 角 线 翻转 ， 翻 转 后 的 效果 见 图 7-5(d) ° 


transposed = tf.image.transpose_image(img_data) 


原始 图 像 (a) 上 下 翻转 (b) 


ü 500 1000 1500 
左右 翻转 (c) 沿 对 角 线 翻转 (d) 


图 7-5 ”图 像 翻 转 效 果 图 


在 很 多 图 像 识 别 问题 中 ， 图 像 的 翻转 不 会 影响 识别 的 结果 。 于 是 在 训 
练 图 像 识 别 的 神经 网 络 模型 时 ， 可 以 随机 地 翻转 训练 图 像 ， 这 样 训练 
得 到 的 模型 可 以 识别 不 同 角度 的 实体 。 比 如 假设 在 训练 数据 中 所 有 的 
猎头 都 是 向 右 的 ， 那 么 训练 出 来 的 模型 就 无 法 很 好 的 识别 猫 尖 向 左 的 
猩 。 虽 然 这 个 问题 可 以 通过 收集 更 多 的 训练 数据 来 解决 ， 但 是 通过 随 
机 翻转 训练 图 像 的 方式 可 以 在 零 成 本 的 情况 下 很 大 程度 地 缓解 该 问 
题 。 所 以 随机 翻转 训练 图 像 是 一 种 很 常用 的 图 像 预 处 理 方 式 。 
TensorFlow 提 供 了 方便 的 API 完 成 随机 图 像 翻转 的 过 程 。 


# 以 一 定 概率 上 下 翻转 图 像 
flipped = tf.image.random_flip_up_down(img_data) 


# 以 一 定 概率 左右 翻转 图 像 。 


flipped = tf.image.random_flip_left_right(img_data) 


图 像 色彩 调整 


和 图 像 翻 转 类 似 ， 调 整 图 像 的 亮度 、 对 比 度 、 饮 和 度 和 色相 在 很 多 图 
像 识 别 应 用 中 都 不 会 影响 识别 结果 。 所 以 在 训练 神经 网 络 模型 时 ， 可 
以 随机 调整 训练 图 像 的 这 些 属性 ， 从 而 使 得 训练 得 到 的 模型 尽 可 能 小 
地 受到 无 关 因 素 的 影响 。TensorFlow 提 供 了 调整 这 些 色 彩 相 关 属 性 的 
API。 以 下 代码 显示 了 如 何 修改 图 像 的 亮度 。 


# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效 果 如 图 7-6(b) 所 示 。 

adjusted = tf.image.adjust_brightness(img_data, -0.5) 
# 将 图 像 的 亮度 +0.5， 得 到 的 图 像 效 果 如 图 7-6(c ) 所 示 。 

adjusted = tf.image.adjust_brightness(img_data, 0.5) 
# 在 [-max_delta，max_delta) 的 范围 随机 调整 图 像 的 亮度 。 


adjusted = tf.image.random_brightness(image, max_delta) 


原始 图 像 (a) 亮度 -0.5 (b) 亮度 +0.5 (c) 


图 7-6 ”图 像 亮 度 调整 效果 图 


以 下 代码 显示 了 如 何 调整 图 像 的 对 比 度 。 


# 将 图 像 的 对 比 度 -5， 得 到 的 图 像 效 果 如 图 7-7(b) 所 示 。 
adjusted = tf.image.adjust_contrast(img_data, -5) 
# 将 图 像 的 对 比 度 +5， 得 到 的 图 像 效 果 如 图 7-7(c) 所 示 。 
adjusted = tf.image.adjust_contrast(img_data, 5) 
# 在 [lower，upper] 的 范围 随机 调整 图 的 对 比 度 。 


adjusted = tf.image.random contrast(image, lower, upper) 


1500 


对 比 度 -5 (b) 对 比 度 +5 (c) 


2000 


17-7 图像 对 比 度 调整 效果 图 
以 下 代码 显示 了 如 何 调整 图 像 的 色相 。 


# 下 面 四 条 命令 分 别 将 色相 加 0 .1、9.3、09.6 和 0.9, 得 到 的 效果 分 别 在 
# 图 7-8(b),(c)，(d),(e) 中 展示 。 


adjusted = tf.image.adjust_hue(img_data, 0.1) 


adjusted tf.image.adjust_hue(img_data, 0.3) 


adjusted = tf.image.adjust_hue(img data, 0.6) 


adjusted tf.image.adjust_hue(img_data, 0.9) 
天 在 [max delta，max _ deltal] 的 范围 随机 调整 图 像 的 色相 e 
# max_delta 的 取 值 在 [06，0.5] 之 间 。 


adjusted = tf.image.random_hue(image, max_delta) 


500 000 500 


原始 图 像 (a) 


色相 +0.6(d) 色相 +0.9(e) 


图 7-8 ”图 像 色相 调整 效 采 图 


以 下 代码 显示 了 如 何 调整 图 像 的 饱和 度 。 


# 将 图 像 的 饱和 度 -5， 得 到 的 图 像 效 果 如 图 7-9(b) 所 示 。 
adjusted = tf.image.adjust_saturation(img_data, -5) 
# 将 图 像 的 饱和 度 +5， 得 到 的 图 像 效 果 如 图 7-9(c) 所 示 。 
adjusted = tf.image.adjust_saturation(img_data, 5) 
# 在 [LIower，Upper] 的 范围 随机 调整 图 的 饱和 度 。 


adjusted = tf.image.random_saturation(image, lower, upper) 


500 00 


原始 图 像 (a) 


500 E 00 


饱和 度 -5 (b) 


500 


饱和 度 +5 (c) 


图 7-9 图 像 饱 和 度 调 整 效 果 图 
除了 调整 图 像 的 亮度 、 对 比 度 、 饮 和 度 和 色相 ，TensorFlow 还 提供 API 


来 完成 图 像 标 准 化 的 过 程 。 这 个 操作 号 古 将 图 像 上 的 亮度 均值 变 为 0， 
方差 变 为 1。 以 下 代码 实现 了 这 个 功能 。 


# 将 代表 一 张 图 像 的 三 维 矩 阵 中 的 数字 均值 变 为 96， 方差 变 为 1。 调 整 后 的 图 像 如 
图 7-10(b)。 


adjusted = tf.image.per_image_whitening(img_data) 


1000 1500 


原始 图 像 (a) 


图 7-10 图像 标准 化 效果 图 


处 理 标注 杠 
在 很 多 图 像 识 别 的 数据 集中 ， 图 像 中 需要 关注 的 物体 通常 会 被 标注 框 


圈 出 来 。TensorFlow 提 供 了 一 些 工 具 来 处 理 标 注 框 。 下 面 这 段 代 码 展示 
了 如 何 通过 tf.image.draw_bounding_boxes 函 数 在 图 像 中 加 入 标注 框 。 


# 将 图 像 缩 小 一 些 ， 这 样 可 视 化 能 让 标注 框 更 加 清楚 。 


img_data = tf.image.resize_images(img_data, 180, 267, met 
hod=1) 


# tf.image.draw_bounding_boxes HARA RAE PNAS ALA, 
所 以 需要 先 将 


# 图 像 矩阵 转化 为 实数 类 型 。tf. image. draw_bounding_boxes HMA KR 
的 输入 是 一 个 


# bacth 的 数据 ， 也 就 是 多 张 图 像 组 成 的 四 维和 矩阵 ， 所 以 需要 将 解码 之 后 的 图 


RFBRE DHE ° 
batched = tf.expand_dims( 
tf.image.convert_image dtype(img_data, tf.float32), 0) 


# 给 出 每 一 张 图 像 的 所 有 标注 框 。 一 个 标注 框 有 四 个 数字 ， 分别 代 表 


[ymin, xmin, ymax, xmax] ° 
# 注意 这 里 给 出 的 数字 都 是 图 像 的 相对 位 置 。 比如 在 180x267 的 图 像 中 ， 


# [9.35，0.47，0.5，0.56] 代 表 了 从 (63, 125) 到 〈90，150) 的 图 
像 。 


boxes = tf.constant([[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47 
, 0.5, 0.56]]]) 


# 图 7-11 显 示 了 加 入 了 标注 框 的 图 像 。 


result = tf.image.draw_bounding_boxes(batched, boxes) 


50 


100 


150 


0 50 100 150 200 250 


图 7-11 在 图 像 中 加 入 标注 框 《图 中 大 的 标注 框 标明 了 猫 脸 的 位 置 ， 小 的 标注 框 标 明了 猪 的 一 
只 眼睛 的 位 置 


HIRED LENS EER > 随机 调整 颜色 类 似 ， 随 机 截取 图 像 上 有 信息 含量 的 
部 分 也 是 一 个 提高 模型 健壮 性 (robustness) 的 一 种 方式 。 这 样 可 以 使 
训练 得 到 的 模型 不 受 被 识 别 物体 大 小 的 影响 。 下 面 的 程序 中 展示 了 如 
J tf image.sample: distorted: bounding bo 数 来 完成 随机 截取 图 像 
的 过 程 。 


Ne 


boxes = tf.constant([[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47, 
0.5, ©.56]]]) 


# 可 以 通过 提供 标注 框 的 方式 来 告诉 随机 截取 图 像 的 算法 哪些 部 分 是 “有 信息 
BAY ° 


begin, size, bbox_for_draw = tf.image.sample_distorted_bou 
nding_box( 


tf.shape(img_data), bounding_boxes=boxes ) 


# 通过 标注 框 可 视 化 随机 截取 得 到 的 图 像 。 得 到 的 结果 如 图 7-12 左 侧 所 示 。 
batched = tf.expand_dims( 
tf.image.convert_image_dtype(img_data, tf. float32), 0) 


image_with_box = tf.image.draw_bounding_boxes(batched, bbo 
x_for_draw) 


# 截取 随机 出 来 的 图 像 。 得 到 的 结果 如 图 7-12 右 侧 所 示 。 因 为 算法 带 有 随机 成 
at, FTL 


# 每 次 得 到 的 结果 会 有 所 不 同 。 


图 7-12 ”在 图 像 中 随机 加 入 的 标注 框 ( 左 ) 以 及 通过 这 个 标注 框 截取 的 图 像 A) 


7.2.2 图像 预 处 理 完整 样 例 


在 7.2.1 小 节 中 详细 讲解 了 TensorFlow 提 供 的 主要 的 图 像 处 理 函 数 。 在 解 
决 真实 的 图 像 识 别 问 题 时 ， 一 般 会 同时 使 用 多 种 处 理 方法 。 这 一 个 小 
廊 将 给 出 一 个 完整 的 样 例 程序 展示 如 何 将 不 同 的 图 像 处 理 函 数 结合 成 
一 个 完成 的 图 像 预 处 理 流程 。 以 下 TensorFlow 程 序 完 成 了 从 图 像 族 段 截 
到 图 像 大 小 调整 再 到 图 像 翻转 及 色彩 调整 的 整个 图 像 预 处 理 过 
H o 


import tensorflow as tf 


import numpy as np 


import matplotlib.pyplot as plt 


# 给 定 一 张 图 像 ， 随 机 调整 图 像 的 色彩 。 因 为 调整 亮度 、 对 比 度 、 饱 和 度 和 色相 的 


# 响 最 后 得 到 的 结果 ， 所 以 可 以 定义 多 种 不 同 的 顺序 。 具 体 使 用 哪 一 种 顺序 可 以 在 


训练 


# 数据 预 处 理 时 随机 的 选择 一 种 。 这 样 可 以 进一步 降低 无 关 因 素 对 模型 的 影响 。 


def distort_color(image, color_ordering=0): 


255.) 


r=1.5) 


1.5) 


r=1.5) 


255.) 


1.5) 


if color_ordering == 


image = tf.image.random_brightness(image, max_delta=32. / 


image = tf.image.random_saturation(image, lower=0.5, uppe 


image = tf.image.random_hue(image, max_delta=0.2) 


image = tf.image.random_contrast(image, lower=0.5, upper= 


elif color_ordering == 


image = tf.image.random_saturation(image, lower=0.5, uppe 


image = tf.image.random_brightness(image, max_delta=32. / 


image = tf.image.random_contrast(image, lower=0.5, upper= 


image = tf.image.random_hue(image, max_delta=0.2) 


elif color_ordering == 


# 还 可 以 定义 其 他 的 排列 ， 但 在 这 里 就 不 再 一 一 列 出 。 


return tf.clip_by_value(image, 0.0, 1.0) 


# 给 定 一 张 解码 后 的 图 像 、 目 标 图 像 的 尺寸 以 及 图 像 上 的 标注 框 ， 此 函数 可 以 对 给 
出 的 图 像 进行 预 


# 处 理 。 这 个 函数 的 输入 图 像 是 图 像 识 别 问题 中 原始 的 训练 图 像 ， 而 输出 则 是 神经 
网 络 模型 的 输入 


# 层 。 注 意 这 里 只 处 理 模 型 的 训练 数据 ， 对 于 预测 的 数据 ， 一 般 不 需要 使 用 随机 变 
换 的 步骤 。 


def preprocess_for_train(image, height, width, bbox): 
# 如 果 没 有 提供 标注 框 ， 则 认为 整个 图 像 就 是 需要 关注 的 部 分 。 
if bbox is None: 
bbox = tf.constant([0.0, 0.0, 1.0, 1.0], 


dtype=tf.float32, shape= 
[1, 1, 41) 


# 转换 图 像 张 量 的 类 型 。 
if image.dtype != tf.float32: 


image = tf.image.convert_image_dtype(image, dtype=tf.floa 
t32) 


# 随机 截取 图 像 ， 减 小 需要 关注 的 物体 大 小 对 图 像 识 别 算法 的 影响 。 


bbox_begin, bbox_size, _ = tf.image.sample distorted boun 
ding_box( 


tf.shape(image), bounding boxes=bbox) 


distorted_image = tf.slice(image, bbox_begin, bbox_size) 


# 将 随机 截取 的 图 像 调整 为 神经 网 络 输入 层 的 大 小 。 大 小 调整 的 算法 是 随机 先 
择 的 。 


distorted_image = tf.image.resize images( 


distorted image, height, width, method=np.random.randint 


(4)) 


# 随机 左右 翻转 图 像 。 


distorted_image = tf.image.random_flip_left_right(distort 
ed_image) 


# 使 用 一 种 随机 的 顺序 调整 图 像 色 彩 。 


distorted image = distort color(distorted image, np.rando 
m.randint(2) ) 


return distorted_image 


image_raw_data = tf.gfile.FastGFile("/path/to/picture", "r") 
.read() 


with tf.Session() as sess: 


img_data = tf.image.decode_jpeg(image_raw_data) 


图 7-13 ”运行 6 次 图 像 预 处 理 得 出 的 6 张 不 同 的 图 


= 


R 


运行 上 面 这 段 程 序 ， 可 以 得 到 类 似 图 7-13 中 所 示 的 图 像 。 这 样 就 可 以 通 
过 一 张 训 练 图 像 衍生 出 很 多 训练 样本 。 通 过 将 训练 图 像 进 行 预 处 理 ， 
ee 可 以 识别 不 同 大 小 、 方 位 、 色 彩 等 方面 的 实 


7.3 ”多 线程 输入 数据 处 理 框架 


在 7.2 广 中 介绍 了 使 用 TensorFlow 对 图 像 数 据 进 行 预 处 理 的 方法 。 虽 然 
使 用 这 些 图 像 数 据 预 处 理 的 方法 可 以 减 小 无 天 因素 对 图 像 识 别 模 型 效 
果 的 影 响 ， 但 这 些 复杂 的 预 处 理 过 程 也 会 减 慢 整个 训练 过 程 。 为 了 避 
免 图 像 预 处 理 成 为 神经 网 络 模型 训练 效率 的 瓶 贷 ，TensorFlow 提 供 了 一 
套 多 线程 处 理 输 入 数据 的 框架 。 在 本 市 中 将 详细 介绍 这 个 框架 。 图 7-14 
忌 结 了 一 个 经 典 的 输入 数据 处 理 的 流程 ， 在 以 下 的 各 个 小 太 中 ， 将 依 
次 介绍 这 个 流程 的 不 同 部 分 。 


指定 原始 数据 的 文件 列表 


创建 文件 列表 队列 


从 文件 中 读 取 数据 


数据 预 处 理 


整理 成 Batch 作 为 神经 网 络 输入 


图 7-14 ”经 典 输入 数据 处 理 流程 图 


7.3.1 小 节 将 首先 介绍 TensorFlow 中 队列 的 概念 。 在 TensorFlow 中 ， 队 列 
不 仅 是 一 种 数据 结构 ， 它 更 提供 了 多 线程 机 制 。 队 列 也 是 TensorFlow 多 
线程 输入 数据 处 理 框架 的 基础 。 然 后 在 7.3.2 小 节 中 将 介绍 如 何在 
TensorFlow 中 实现 图 7-14 中 的 前 三 步 。TensorFlow 提 供 了 
tf.train.string_input_producer 芳 数 来 有 效 管理 原始 输入 文件 列表 。 在 7.3.2 
小 下 中 将 重点 介绍 如 何 使 用 这 个 函数 。 图 7-14 中 数据 预 处 理 的 部 分 已 经 
在 7.2 广 中 有 过 详细 介绍 ， 本 市 不 再 重复 。 接 着 在 7.3.3 小 市 中 将 介绍 图 
7-14 中 的 最 后 一 个 流程 。 这 个 流程 将 处 理 好 的 单个 训练 数据 整理 成 训练 
数据 batch， 这 些 batch 就 可 以 作为 神经 网 络 的 输入 。7.3.3 小 广 将 介绍 
tf.train.shuffle_batch_join 和 tf.train.shuffle_batch 夯 数 ， 并 比较 不 同 函 数 的 
多 线程 并 行 方式 。 最 后 在 7.3.4 小 市 中 将 给 出 一 个 完整 的 TensorFlow 程 序 
来 展示 整个 输入 数据 处 理 框 架 。 


73.1 队列 与 多 线程 


在 TensorFlow 中 ， 队 列 和 变量 类 似 ， 都 是 计算 图 上 有 状态 的 节点 。 其 他 
的 计算 节点 可 以 修改 它们 的 状态 。 对 于 变量 ， 可 以 通过 赋值 操作 修改 
BP ee WY ACE e ° HP TRI, 修改 队列 状态 的 操作 主要 有 Enqueue 、 
EnqueueMany 和 Degueue 。 以 下 程序 展示 了 如 何 使 用 这 些 函 数 来 操作 一 
| Ij o 


import tensorflow as tf 


# 创建 一 个 先进 先 出 队列 ， 指 定 队 列 中 最 多 可 以 保存 两 个 元 素 ， 并 指定 类 型 为 整 


q = tf.FIFOQueue(2, "int32") 


# 4% enqueue_many KARI aL PACH o 和 变量 初始 化 类 似 ， 在 使 用 
队列 之 前 


# 需要 明确 的 调用 这 个 初始 化 过 程 。 
init = q.enqueue_many(([0, 10], )) 


# 使 用 Dequeue 画 数 将 队列 中 的 第 一 个 元 素 出 队列 。 这 个 元 素 的 值 将 被 存在 变量 x 


x = q.dequeue() 
# 将 得 到 的 值 加 1。 
y=x+1 


# 将 加 1 后 的 值 在 重新 加 入 队列 。 


q_inc = q.enqueue([y]) 


with tf.Session() as sess: 
# 运行 初始 化 队列 的 操作 。 
init.run() 

for _ in range(5): 


# 运行 q_inc 将 执行 数据 出 队列 、 出 队 的 元 素 +1、 重 新 加 入 队列 的 整个 过 


程 。 
v, _ = sess.run([x, g_inc]) 
# 打印 出 队 元 素 的 取 值 。 


print V 


队列 开始 有 [6, 19] 两 个 元 素 ， 第 一 个 出 队 的 为 9， 加 1 之 后 再 次 入 队 得 到 的 队列 为 
[10,1]; 第 三 次 出 队 的 为 0， 加 1 之 后 入 队 的 为 11， 得 到 的 队列 为 [1, 11]; 以 此 类 
推 ， 最 后 得 到 的 输出 为 : 

O 

10 


íl 


11 


TensorFlow 中 提供 了 FIFOQueue 和 RandomShuffleQueue 两 种 队列 。 在 上 
面 的 程序 中 ， 已 经 展示 了 如 何 使 用 FIFOQueue， 它 的 实现 的 是 一 个 先进 
先 出 队列 。RandomShuffleQueue 会 将 队列 中 的 元 素 打 乱 ， 每 次 出 队列 
操作 得 到 的 是 从 当前 队列 所 有 元 素 中 随机 选择 的 一 个 。 在 训练 神经 网 
络 时 希望 每 次 使 用 的 训练 数据 尽量 随机 ，RandomShuffleQueue 束 提供 
了 这 样 的 功能 。 


在 TensorFlow 中 ， 队 列 不 仅仅 是 一 种 数据 结构 ， 还 是 异步 计算 张 量 取 值 
的 一 个 重要 机 制 。 比 如 多 个 线程 可 以 同时 加 一 个 队列 中 写 元 素 ， 或 者 
同时 读 取 一 个 队列 中 的 元 际 。 在 后 面 的 小 节 中 将 具体 介绍 TensorFlow 是 
如 何 利用 队列 来 实现 多 线程 输入 数据 处 理 的 。 在 本 小 和 之 后 的 内 容 中 
将 先 介绍 TensorFlow 提 供 的 辅助 函数 来 更 好 地 协同 不 同 的 线程 。 


TensorFlow 提 供 了 tf.Coordinator 和 tf.QueueRunner 两 个 类 来 完成 多 线程 协 
同 的 功能 。tf.Coordinator 主 要 用 于 协同 多 个 线程 一 起 停止 ， 并 提供 了 
should_stop、request_stop 和 join 三 个 函数 。 在 局 动 线程 之 前 ， 需 要 先 声 
明 一 个 tt.Coordinator 类 ， 并 将 这 个 类 传 入 每 一 个 创建 的 线程 中 。 局 动 的 
线程 需要 一 直 查 询 tf.Coordinator 类 中 提供 的 should_stop 了 汞 数 ， 当 这 个 函 
数 的 返回 值 为 True 时 ， 则 当前 线程 也 需要 退出 。 每 一 个 启动 的 线程 都 可 
以 通过 调用 request_stop 函 数 来 通知 其 他 线程 退出 。 当 某 一 个 线程 调用 
request_stop 函 数 之 后 ，should_stop 函 数 的 返回 值 将 被 设置 为 True， 这 样 
其 他 的 线程 就 可 以 同时 终止 了 。 以 下 程序 展示 了 如 何 使 用 


tf.Coordinator ° 


import tensorflow as tf 


import numpy as np 


import threading 


import time 


# 线程 中 运行 的 程序 ， 这 个 程序 每 隔 1 秒 判断 是 否 需要 停止 并 打印 自己 的 ID e 


def MyLoop(coord, worker_id): 


# 使 用 tf.Coordinator 类 提供 的 协同 工具 判断 当前 线程 是 否 需要 停止 。 


while not coord.should_stop(): 


# 随机 停止 所 有 的 线程 。 
if np.random.rand() < 0.1 : 
print "Stoping from id: %d\n" % worker_id, 
# 调用 coord.request_stop( ) WROKIH FI HAE IE © 
coord.request_stop() 
else: 
# 打印 当前 线程 的 Id 。 
print "Working on id: %d\n" % worker_id, 
# 暂停 1 秒 


time.sleep(1) 


# 声明 三 个 tf .train.Coordinator 类 来 协同 多 个 线程 。 


coord = tf.train.Coordinator() 


# 声明 创建 5 个 线程 。 


threads 


(coord, i, 


# 启动 所 有 的 线程 。 


[ 


threading.Thread(target=MyLoop, 


)) for i in xrange(5)] 


for t in threads: t.start() 


# 等 待 所 有 线程 退出 。 


coord. join(threads ) 


运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果: 


Working 


Working 


Working 


Working 


Working 


Working 


Stoping 


Working 


on 


on i 


on i 


on i 


on i 


on i 


from id: 4 


on id: 1 


id: 


args= 


当 所 有 线程 启动 之 后 ， 每 个 线程 会 打印 各 目的 ID ， 于 是 前 面 4 行 打印 出 
了 它们 的 ID 。 然 后 在 暂停 1 秒 之 后 ， 所 有 线程 又 开始 第 二 届 打 印 ID 。 在 
这 个 时 候 有 一 个 线程 退出 的 条 件 达 到 ， 于 是 调用 了 coord.request_stop 画 
数 来 停止 所 有 其 他 的 线程 。 然 而 在 打印 Stoping from id: 4 之 后 ， 可 以 看 
到 有 线程 仍然 在 输出 。 这 是 因为 这 些 线程 已 经 执行 完 coord.should_stop 
的 判断 ， 于 是 仍然 会 继续 输出 自己 的 ID。 但 在 下 一 轮 判 断 是 否 需要 停 
止 时 将 退出 线程 。 于 是 在 打印 一 次 ID 之 后 就 不 会 再 有 输出 了 。 


tf.QueueRunner 主 要 用 于 启动 多 个 线程 来 操作 同一 个 队列 ， 局 动 的 这 些 
线程 可 以 通过 上 面 介绍 的 tf.Coordinator 类 来 统一 管理 。 以 下 代码 展示 了 
如 何 使 用 tf.QueueRunner 和 tf.Coordinator 来 管理 多 线程 队列 操作 。 


import tensorflow as tf 


# 声明 一 个 先进 先 出 的 队列 ， 队 列 中 最 多 100 个 元 素 ， 类 型 为 实数 。 
queue = tf.FIFOQueue(100, "float") 
# 定义 队列 的 入 队 操作 。 


enqueue_op = queue.enqueue([tf.random_normal([1])]) 


# 使 用 tf.train.QueueRunner 来 创建 多 个 线程 运行 队列 的 入 队 操 作 。 


# tf.train.QueueRunner 的 第 一 个 参数 给 出 了 被 操作 的 队列 ， 


[enqueue_op] * 5 


# 表示 了 需要 启动 5 个 线程 ， 每 个 线程 中 运行 的 是 enqueue_op 操 作 。 


qr = tf.train.QueueRunner(queue, [enqueue_op] * 5) 


# 将 定义 过 的 QueueRunner 加 入 TensorFlow 计 算 图 上 指定 的 集合 。 


# tf.train.add_queue_runner 画 数 没 有 指定 集合 ， 


# 则 加 入 默认 集合 tf ,GraphKeys.QUEUE_RUNNERS 。 下 面 的 函数 就 是 将 刚刚 
定义 的 


# gr 加 入 默认 的 tf.GraphKeys .QUEUE_RUNNERS 集 合 。 
tf.train.add_queue_runner (qr) 
# 定义 出 队 操作 。 


out_tensor = queue.dequeue( ) 


with tf.Session() as sess: 


# 使 用 tf.train.Coordinator 来 协同 启动 的 线程 。 
coord = tf.train.Coordinator() 


# 使 用 tf.train.QueueRunner 时 ， 需 要 明确 调用 
tf.train.start_queue_runners 


# 来 启动 所 有 线程 。 和 否则 因为 没有 线程 运行 入 队 操 作 ， 当 调用 出 队 操 作 时 ， 程 序 会 
一 直 等 待 入 


# 队 操 作 被 运行 。tf.train.start_queue_runners 画 数 会 默认 启动 


# tf.GraphKeys .QUEUE_RUNNERS 集 合 中 所 有 的 QueueRunner。 因 为 这 个 画 
数 只 支持 启 


# 动 指 定 集 合 中 的 QueueRnner， 所 以 一 般 来 说 tf.train.add_queue_runner 
函数 和 


y 


# tf.train.start_queue_runners HASHES 。 


threads = tf.train.start_queue_runners(sess=sess, coord=coor 
d) 


# 获取 队列 中 的 取 值 。 


for _ in range(3): print sess.run(out_tensor) [0] 


# 使 用 tf.train.Coordinator 来 停止 所 有 的 线程 。 
coord.request_stop() 


coord. join(threads ) 


上 面 的 程序 将 启动 五 个 线程 来 执行 队列 入 队 的 操作 ， 其 中 每 一 个 线程 都 是 将 随机 数 
写 入 队列 。 于 是 在 每 次 运行 出 队 操作 时 ， 可 以 得 到 一 个 随机 数 。 运 行 这 段 程序 可 以 得 到 
类 似 下 面 的 结果 : 


-0.315963 
-1.06425 


0.347479 


7.3.2 ”输入 文件 队列 


本 小 和 将 介绍 如 何 使 用 TensorFlow 中 的 队列 管理 输入 文件 列表 。 在 这 一 
小 节 中 ， 假 设 所 有 的 输入 数据 都 已 经 整理 成 了 TFRecord 格 式 皇 。 虽 然 一 
个 TFRecord 文 件 中 可 以 存储 多 个 训练 样 例 ， 但 是 当 训 练 数据 量 较 大 
时 ， 可 以 将 数据 分 成 多 个 TFRecord 文 件 来 提高 处 理 效 率 。TensorFlow 提 
供 了 tftrain.match_filenames_once 函 数 来 获取 符合 一 个 正则 表达 式 的 所 
有 文件 ， 得 到 的 文件 列表 可 以 通过 tf.train.string_input_producer 玉 数 进 行 
有 效 的 管理 。 


tf.train.string_input_producer 芳 数 会 使 用 初始 化 时 提供 的 文件 列表 创建 一 
个 输入 队列 ， 和 输入 队列 中 原始 的 元 素 为 文件 列表 中 的 所 有 文件 。 如 7.1 
万 中 的 样 例 代 码 所 示 ， 创 建 好 的 输入 队列 可 以 作为 文件 读 取 函数 的 参 
数 。 每 次 调用 文件 读 取 函数 时 ， 该 久 数 会 先 判 断 当 前 是 否 已 有 打开 的 
文件 可 读 ， 如 有 果 没 有 或 者 打开 的 文件 已 经 读 完 ， 这 个 函数 会 从 输入 队 
列 中 出 队 一 个 文件 并 从 这 个 文件 中 读 取 数据 。 


通过 设置 shuffle 参 数 ，tf.train.string_input_producer 芳 数 支 持 随机 打 乱 , 文 
件 列表 中 文件 出 队 的 顺序 。 当 shuffle 参 数 为 True 时 ， 文 件 在 加 入 队列 之 
前 会 被 打 乱 顺序 ， 所 以 出 队 的 顺序 也 是 随机 的 。 随 机 打 乱 文件 顺序 以 
及 加 入 输入 队列 的 过 程 会 跑 在 一 个 单独 的 线程 上 ， 这 样 不 会 影响 获取 
文件 的 速度 。tf.train.string_input_producer 生 成 的 输入 队列 可 以 同时 被 多 
个 文件 读 取 线程 操作 ， 而 且 输 入 队列 会 将 队列 中 的 文件 均匀 地 分 给 不 
ae 不 出 现 有 些 文件 被 处 理 过 多 次 而 有 些 文件 还 没有 被 处 理 过 
情况 。 


当 一 个 输入 队列 中 的 所 有 文件 都 被 处 理 完 后 ， 它 会 将 初始 化 时 提供 的 
文件 列表 中 的 文件 全 部 重新 加 入 队列 。 tftrain.string_input_producer 函 数 
可 以 设置 num_epochs 参 数 来 限制 加 载 初始 文件 列表 的 最 大 轮 数 。 当 所 
有 文件 都 已 经 被 使 用 了 设 定 的 轮 数 后 ， 如 果 继 续 党 试 读 取 新 的 文件 ， 

输入 队列 会 报 OutoOfRange 的 错误 。 在 测试 神经 网 络 模型 时 ， 因 为 所 有 
测试 数据 只 需要 使 用 一 次 ， 所 以 可 以 将 num_epochs 参 数 设置 为 1。 这 样 
在 计算 完 一 轮 之 后 程序 将 自动 停止 。 在 展示 
tf.train.match_filenames_once F} tf.train.string_input_producer K ži p9 E FA 


方法 之 前 ， 下 面 完 给 出 一 个 简单 的 程序 来 生成 样 例 数据 。 


import tensorflow as tf 


# 创建 TFRecord 文 件 的 帮助 画 数 。 


def _int64 feature(value): 


return tf.train.Feature(int64 list=tf.train.Int64List(value= 
[value|)) 


# 模拟 海量 数据 情况 下 将 数据 写 入 不 同 的 文件 。num_shards 定 义 了 总 共 写 入 多 少 
和 


# instances_per_shard 定 义 了 每 个 文件 中 有 多 少 个 数据 。 
num_shards = 2 

instances_per_shard = 2 

for i in range(num_shards): 


# 将 数据 分 为 多 个 文件 时 ， 可 以 将 不 同文 件 以 类 似 090gn-of -0999m 的 后 级 区 
分 。 其 中 m 表 


# 示 了 数据 总 共 被 存在 了 多 少 个 文件 中 ，n 表 示 当 前 文件 的 编号 。 式 样 的 方式 既 方 
TORNE 


# 则 表达 式 获取 文件 列表 ， 又 在 文件 名 中 加 入 了 更 多 的 信息 。 


filename = ('/path/to/data.tfrecords-%.5d-of - 
%.5d' % (i, num_shards) ) 


writer = tf.python_io.TFRecordwriter (filename ) 


# 将 数据 封装 成 Example 结 构 并 写 入 TFRecord 文 件 。 


for j in range(instances_per_shard): 


Th 


# Example 结 构 仅 包含 当前 样 例 属于 第 几 个 文件 以 及 是 当前 文件 的 第 几 个 术 


example = tf.train.Example(features=tf.train.Features(fe 
ature={ 


'i': _int64_feature(i), 
'j': _int64_feature(j)})) 
writer.write(example.SerializeToString()) 
writer.close() 
程序 运行 之 后 ， 在 指定 的 目录 下 将 生成 两 个 文件 : 
/path/to/data.tfrecords-00000-of-00002 和 /path/to/data.tfrecords-00001-of- 
00002。 每 一 个 文件 中 存储 了 两 个 样 例 。 在 生成 了 样 例 数据 之 后 ， 以 下 


代 码 展示 了 tf.train.match filenames once EK 数 和 
tf.train.string_input_producer 范 数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 tf.train.match filenames_once 画 数 获取 文件 列表 。 


files = tf.train.match_filenames_once("/path/to/data.tfrecor 
ds-*") 


# 通过 tf.train.string_input_producer 画 数 创建 输入 队列 ， 输 入 队列 中 的 
文件 列表 为 


# tf.train.match_ filenames once 函数 获取 的 文件 列表 。 这 里 将 shuffle 
参数 设 为 False 


# 来 避免 随机 打 乱 读 文件 的 顺序 。 但 一 般 在 解决 真实 问题 时 ， 会 将 shuffle 参 数 
设置 为 True 。 


filename_queue = tf.train.string_input_producer(files, shuff 
le=False) 


# 如 7.1 节 中 所 示 读 取 并 解析 一 个 样本 。 


ia! 


reader = tf.TFRecordReader() 
_, serialized_example = reader.read(filename_queue) 
features = tf.parse_single_example( 
serialized_example, 
features={ 
'i': tf.FixedLenFeature([], tf.int64), 


'j': tf.FixedLenFeature([], tf.int64), 


}) 


with tf.Session() as sess: 


# 昌 然 在 本 段 程序 中 没有 声明 任何 变量 ， 但 使 用 


tf.train.match filenames_once 画 数 时 需 


# Bini AEs G 


tf.initialize_all_variables().run() 


打印 文件 列表 将 得 到 下 面 的 结果 : 


['/path/to/data.tfrecords -00000-of -00002' 


'/path/to/data.tfrecords -00001-of -00002' | 


print sess.run(files) 


# 声明 tf.train.Coordinator 类 来 协同 不 同 线程 ， 并 启动 线程 。 


coord = tf.train.Coordinator() 


threads = tf.train.start_queue_runners(sess=sess, coord=co 
ord) 


# 多 次 执行 获取 数据 的 操作 。 
for i in range(6): 

print sess.run([features['i'], features['j']]) 
coord.request_stop() 


coord. join(threads ) 


上 面 的 打印 将 输出 : 


[0, 0] 
[0, 1] 
[1, 0] 
[1, 1] 
[0, 0] 
[0, 1] 
在 不 打 乱 文件 列表 的 情况 下 ， 会 依次 读 出 样 例 数 据 中 的 每 一 个 样 例 。 


而 且 当 所 有 样 例 都 被 读 完 之 后 ， 程 序 会 自动 从 头 开 始 。 如 果 限 制 
num_epochs 为 1， 那 么 程序 将 会 报错 ; 


tensorflow.python.framework.errors.OutOofRangeError: FIFOQueu 
e '_0 input_producer' is closed and has insufficient elements (r 
equested 1, current size 0) 


[ [Node: ReaderRead = ReaderRead[_class= 
["loc:@TFRecordReader", "loc: @input_producer"], _device="/job:1 
ocalhost/replica:0/task:0/cpu:0"] 

(TFRecordReader, input_producer ) ] ] 


7.3.3 组合 训练 数据 (batching) 


在 7.3.2 小 市 中 已 经 介绍 了 如 何 从 文件 列表 中 读 取 单个 样 例 ， 将 这 些 单 
个 样 例 通 过 7.2 太 中 介绍 的 预 处 理 方法 进行 处 理 ， 就 可 以 得 到 提供 给 神 


经 网 络 输入 层 的 训练 数据 了 。 在 第 4 章 介 绍 过 ， 将 多 个 输入 样 例 组 织 成 
一 个 batch 可 以 提高 模型 训练 的 效率 。 所 以 在 得 到 单个 样 例 的 预 处 理 结 
果 之 后 ， 还 需要 将 它们 组 织 成 batch， 然 后 再 提供 给 神经 网 络 的 输入 
层 。TensorFlow 提 供 了 tftrain.batch 和 tf.train.shuffle_batch 函 数 来 将 单个 
的 样 例 组 织 成 batch 的 形式 输出 。 这 两 个 函数 都 会 生成 一 个 队列 ， 队 列 
的 入 队 操作 是 生成 单个 样 例 的 方法 ， 而 每 次 出 队 得 到 的 是 一 个 batch 的 
样 例 。 它 们 唯一 的 区 别 在 于 是 否 会 将 数据 顺序 打 乱 。 以 下 代码 展示 了 
这 两 个 函数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 7.3.2 小 节 中 的 方法 读 取 并 解析 得 到 样 例 。 这 里 假设 Example 结 构 中 i 表示 
一 个 样 例 的 


# 特征 向 量 ， 比 如 一 张 图 像 的 像素 矩阵 。 而 j 表 示 该 样 例 对 应 的 标签 。 


example, label = features['i'], features['j'] 


# 一 个 batch 中 样 例 的 个 数 。 
batch_size = 3 


# 组 合 样 例 的 队列 中 最 多 可 以 存储 的 样 例 个 数 。 这 个 队列 如 果 太 大 ， 那 么 需要 占用 
很 多 内 存 资源 ; 


# 如 果 太 小 ， 那 么 出 队 操作 可 能 会 因为 没有 数据 而 被 阻碍 (block) ， 从 而 导致 训 
练 效 率 降低 。 一 般 


# 来 说 这 个 队列 的 大 小 会 和 每 一 个 batch 的 大 小 相关 ， 下 面 一 行 代码 给 出 了 设置 队 
列 大 小 的 一 种 


# 方式 。 


Capacity = 1000 + 3 * batch_size 


# 使 用 tf.train.batch 画 数 来 组 合 样 例 。[example，1abel] 参 数 给 出 了 需要 


组 合 的 元 素 ， 


# 一 般 example 和 label 分 别 代表 训练 样本 和 这 个 样本 对 应 的 正确 标签 。 


batch_size 参 数 给 出 


于 容 


# 了 每 个 batch 中 样 例 的 个 数 。capacity 给 出 了 队列 的 最 大 容量 。 当 队列 长 度 等 


量 时 ， 


# TensorF1ow 将 暂停 入 队 操作 ， 而 只 是 等 待 元 素 出 队 。 当 元 素 个 数 小 于 容量 时 ， 


TensorFlow 


d) 


# 将 自动 重新 启动 入 队 操作 。 


example_batch, label_batch = tf.train.batch( 


[example, label], batch_size=batch_size, capacity=capacity) 


with tf.Session() as sess: 
tf.initialize_all_variables().run() 
coord = tf.train.Coordinator() 


threads = tf.train.start_queue_runners(sess=sess, coord=coor 


# 获取 并 打印 组 合 之 后 的 样 例 。 在 真实 问题 中 ， 这 个 输出 一 般 会 作为 神经 网 络 的 输 


for i in range(2): 
cur_example_batch, cur_label_batch = sess.run( 
[example batch, label_batch]) 


print cur_example_batch, cur_label_batch 


coord. request_stop() 


coord. join(threads ) 


运行 上 面 的 程序 可 以 得 到 下 面 的 输出 : 


[0 © 1] [0 1 0] 
[1 © 0] [1 0 1] 


Mik i HA eel tf. train. batch ay LR SA ete AA 3 S$ 2B 
batch ° 


在 example，1label 中 读 到 的 数据 依次 为 : 
example: ©, lable:0 
example: ©, lable:1 


example: 1, lable:0 


example: 1, lable:1 


这 是 因为 tf.train.batch 函 数 不 会 随机 打 乱 顺序 ， 所 以 组 合 之 后 得 到 的 数据 组 
合成 了 上 面 给 出 的 输出 。 


下 面 一 段 代码 展示 了 tftrain.shuffle batch 函 数 的 使 用 方法 。 


# 和 tf.train.batch 的 样 例 代码 一 样 产 生 example 和 ]abel。 


example, label = features['i'], features['j'] 


# 使 用 tf.train.shuffle batch K HX AA EF fil 
tf.,train.shuffle _ batch 函数 


# 的 参数 大 部 分 都 和 tf .train.batch 函 数 相 似 ， 但 是 min_after_dequeue 参 
数 是 


# tf.train.shuffle _ batch 函数 特有 的 。min_ after _dequeue 参 数 限制 了 
出 队 时 队列 中 元 


# 素 的 最 少 个 数 。 当 队列 中 元 素 太 少 时 ， 随 机 打 乱 样 例 顺序 的 作用 就 不 大 了 。 所 以 


# tf.train.shuffle_batch 画 数 提供 了 限制 出 队 时 最 少 元 素 的 个 数 来 保证 随 
机 打 乱 顺序 的 


# 作用 。 当 出 队 画 数 被 调用 但 是 队列 中 元 素 不 够 时 ， 出 队 操作 将 等 待 更 多 的 元 素 入 
队 才 会 完成 。 


# 如 果 min after _ dequeue 参 数 被 设 定 ，capacity 也 应 该 相应 调整 来 满足 性 能 


example_batch, label_batch = tf.train.shuffle_batch( 
[example, label], batch_size=batch_size, 


Capacity=capacity, min_ after_dequeue=30 ) 


# 和 tf.train.batch 的 样 例 代码 一 样 打印 example_batch,，1label batch。 


运行 上 面 的 代码 可 以 得 到 下 面 的 输出 : 


[0 11] [0 1 0] 


[1 © 0] [0 © 1] 


从 输出 中 可 以 看 到 ， 得 到 的 样 例 顺 序 已 经 被 打 乱 了 。 


tf.train.batch 函 数 和 tt.train.shuffle_ batch 函 数 除 了 可 以 将 单个 训练 数据 整 
理 成 输入 batch， 也 提供 了 并 行 化 处 理 输入 数据 的 方法 。tttrain.batch K 
数 和 tt.train.shuffle_batch 函 数 并 行 化 的 方式 一 致 ， 所 以 在 本 小 节 中 仅 以 
应 用 得 更 多 的 tttrain.shuffle batch 函数 为 例 。 通 过 设置 
tf.train.shuffle_ batch 函 数 中 的 num_ threads 参 数 ， 可 以 指定 多 个 线程 同时 
执行 入 队 操 作 。tf.train.shuffle batch 函 数 的 入 队 操作 就 是 数据 读 取 以 及 
预 处 理 的 过 程 。 当 num_threads 参 数 大 于 1 时 ， 多 个 线程 会 同时 读 取 一 个 
文件 中 的 不 同样 例 并 进行 预 处 理 。 如 果 需 要 多 个 线程 处 理 不 同文 件 中 
的 样 例 时 ， 可 以 使 用 tttrain.shuffle_batch_join 函 数 军 。 此 函数 会 从 输入 
文件 队列 中 获取 不 同 的 文件 分 配给 不 同 的 线程 。 一 般 来 说 ， 输 入 文件 
队列 是 通过 7.3.2 中 介绍 的 ttrain.string_input_producer 函 数 生 成 的 。 这 个 
函数 会 平均 分 配 文件 以 保证 不 同文 件 中 的 数据 会 被 尽量 平均 地 使 用 。 


tf.train.shuffle_batch 函 数 和 tttrain.shuffle_batch_join 函 数 都 可 以 完成 多 线 
FE H TTA A TR HET TEE, EIB ATA cM F 
tf.train.shuffle batch 函 数 ， 不 同 线程 会 恋 取 同 一 个 文件 。 如 有 果 一 个 文件 
中 的 样 例 比 较 相 似 〈 比 如 都 属于 同一 个 类 别 ) ， 那 么 神经 网 络 的 训练 
效果 有 可 能 会 受到 影响 。 所 以 在 使 用 tf.train.shuffle_batch 函 数 时 ， 需 要 
尽量 将 同一 个 TFRecord 文 件 中 的 样 例 随 机 打 乱 。 而 使 用 
tf.train.shuffle_batch_join 函 数 时 ， 不 同 线程 会 读 取 不 同文 件 。 如 果 读 取 
数据 的 线程 数 比 总 文件 数 还 大 ， 那 么 多 个 线程 可 能 会 读 取 同 一 个 文件 
中 相近 部 分 的 数据 。 而 且 多 个 线程 读 取 多 个 文件 可 能 导致 过 多 的 硬盘 
寻 址 ， 从 而 使 得 读 取 效率 降低 。 不 同 的 并 行 化 方式 各 有 所 长 ， 具 体 采 
用 哪 一 种 方法 需要 根据 具体 情况 来 确定 。 


7.3.4 ”输入 数据 处 理 框架 


在 前 面 的 小 节 中 已 经 介绍 了 图 7-14 所 展示 的 流程 图 中 的 所 有 步 怠 。 在 这 
一 小 节 将 把 这 些 步 又 串 成 一 个 完成 的 TensorFlow 来 处 理 输 入 数据 。 以 下 
代码 给 出 了 这 个 完成 的 程序 。 


import tensorflow as tf 


创建 文件 列表 ， 并 通过 文件 列表 创建 输入 文件 队列 。 在 调用 输入 数据 处 理 流程 


# 统一 所 有 原始 数据 的 格式 并 将 它们 存储 到 TFRecord 文 件 中 。 下 面 给 出 的 文件 列 
表 应 该 包含 所 


# 有 提供 训练 数据 的 TFRecord 文 件 。 


files = tf.train.match filenames once("/path/to/file pattern 


Sy 


filename_queue = tf.train.string_input_producer(files, shuff 
le=False) 


# 使 用 类 似 7.1 节 中 介绍 的 方法 解析 TFRecord 文 件 里 的 数据 。 这 里 假设 image 中 
存储 的 是 图 像 


# 的 原始 数据 ，label 为 该 样 例 所 对 应 的 标签 。height、width 和 channels 给 
出 了 图 片 的 维度 。 


reader = tf.TFRecordReader() 


_, serialized_example = reader.read(filename queue) 


features = tf.parse single example( 


serialized example, 


features={ 


'image': tf.FixedLenFeature([], tf.string), 


‘label': tf.FixedLenFeature([], tf.int64), 


"height': tf.FixedLenFeature([], tf.int64), 


'width': tf.FixedLenFeature([], tf.int64), 


"‘channels': tf.FixedLenFeature([], tf.int64), 


}) 


image, label = features['image'], features['label'] 


height, width = features['height'], features[ 'width' ] 


channels = features['channels' ] 


# 从 原始 图 像 数据 解析 出 像素 矩阵 ， 并 根据 图 像 尺寸 还 原 图 像 。 
decoded_image = tf.decode_raw(image, tf.uint8) 
decoded_image.set_shape([height, width, channels] ) 
# 定义 神经 网 络 输入 层 图 片 的 大 小 。 

image_size = 299 

# preprocess _ for _ train 为 7.2.2 小 节 中 介绍 的 图 像 预 处 理 程序 ° 
distorted_image = preprocess_for_train( 


decoded_image, image_size, image_size, None) 


# 将 处 理 后 的 图 像 和 标签 数据 通过 tf.train.shuffle batch 整 理 成 神经 网 络 
训练 时 


# 需要 的 batch。 

min_after_dequeue = 10000 

batch_size = 100 

Capacity = min_after_dequeue + 3 * batch size 
image_batch, label_batch = tf.train.shuffle_batch( 


[distorted_image, label], batch_size=batch_size, 


Capacity=capacity, min_after_dequeue=min_after_dequeue) 


# 定义 神经 网 络 的 结构 以 及 优化 过 程 。image_batch 可 以 作为 输入 提供 给 神经 网 


络 的 输入 层 。 


)\ 


d) 


# label_batch 则 提供 了 输入 batch 中 样 例 的 正确 答案 。 
logit = inference(image_batch) 
loss = calc_loss(logit, label_batch) 


train_step = tf.train.GradientDescentOptimizer(learning_rate 


.minimize(loss) 


# 声明 会 话 并 运行 神经 网 络 的 优化 过 程 。 


with tf.Session() as sess: 


# 神经 网 络 训练 准备 工作 。 这 些 工作 包括 变量 初始 化 、 线 程 启动 。 


tf.initialize_all_variables().run() 


coord = tf.train.Coordinator() 


threads = tf.train.start_queue_runners(sess=sess, coord=coor 


# 神经 网 络 训练 过 程 。 


for i in range(TRAINING_ROUDNS) : 


sess.run(train_step) 


# 停止 所 有 线程 。 
coord.request_stop() 


coord. join( threads) 


图 7-15 展 示 了 以 上 代码 中 输入 数据 处 理 的 整个 流程 。 从 图 7-15 中 可 以 看 
出 ， 输 入 数据 处 理 的 第 一 步 为 获取 存储 训练 数据 的 文件 列表 。 在 图 7-15 
中 ， 这 个 文件 列表 为 {TA,B,C}。 通 过 tf.train.string_input_producer 函 数 ， 
可 以 选择 性 地 将 文件 列表 中 文件 的 顺序 打 乱 ， 并 加 入 输入 队列 。 因 为 
是 否 打 乱 文 件 的 顺序 是 可 选 的 ， 所 以 在 图 中 通过 虚线 表示 。 
tf.train.string_input_producer 芳 数 会 生成 并 维护 一 个 输入 文件 队列 ， 不 同 
线程 中 的 文件 读 取 函数 可 以 共享 这 个 输入 文件 队列 。 在 读 取 样 例 数据 
之 后 ， 需 要 将 图 像 进 行 预 处 理 。 图 像 预 处 理 的 过 程 也 会 通过 
tf.train.shuffle_batch 提 供 的 机 制 并 行 地 跑 在 多 个 线程 中 。 输 入 数据 处 理 
流程 的 最 后 通过 tf.train.shuffle_batch 函 数 将 处 理 好 的 单个 输入 样 例 整理 
成 batch 提 供给 神经 网 络 的 输入 层 。 通 过 这 种 方式 ， 可 以 有 效 地 提高 数 
o 的 效率 ， 避 免 数 据 预 处 理 成 为 神经 网 络 模型 训练 过 程 中 的 性 
SELEN ° 


输入 文件 列表 输入 文件 队列 样 例 组 合 队列 
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} batch1 


\ batch2 


图 7-15 ”输入 数据 处 理 流程 示意 图 


小 结 


本 章 通 过 图 像 数 据 预 处 理 的 流程 ， 介 绍 了 TensorFlow 使 用 多 线程 处 理 输 
入 数据 的 框架 。 虽 然 本 章 以 图 像 数 据 处 理 为 例 ， 但 读者 可 以 很 容易 将 
该 框架 移植 到 其 他 类 型 的 数据 预 处 理 上 。 根 据 输入 数据 处 理 的 步骤 ， 

在 本 章 的 三 节 中 分 别 介 绍 了 TensorFlow 推 荐 的 输入 数据 格式 、 图 像 预 处 
理 算法 和 输入 数据 处 理 的 框架 。 前 先 在 7.1 广 中 介绍 了 如 何 通 过 
TensorFlow 提 供 的 TFRecord 格 式 来 统一 不 同 格式 的 输入 数据 。 这 一 和 给 
出 了 样 例 程 序 将 原始 的 输入 数据 转化 为 Example Protocol Buffer， 并 存 
a TFRecord 文 件 中 ， 也 给 出 了 有 具体 代码 从 TEFRecord 文 件 中 读 取 数 


接着 7.2 玫 介绍 了 TensorFlow 中 主要 的 图 像 处 理 函 数 ， 并 给 出 了 一 个 完 
整 的 图 像 预 处 理 过 程 。TensorFlow 提 供 了 图 像 解 码 、 图 像 大 小 调整 、 图 
像 旋 转 、 图 像 色 彩 调 整 和 图 像 标 注 框 处 理 等 方法 。 根 据 具体 问题 ， 可 
以 采用 其 中 的 部 分 方法 来 弱化 与 此 问题 无 天 的 因素 。 比 如 对 于 数字 手 
写 体 识别 问题 ， 图 像 的 颜色 、 亮 度 等 与 识别 的 结果 无 天 ， 所 以 可 以 通 
过 7.2 节 中 介绍 的 方法 来 弱化 这 些 因 素 对 最 终 分 析 结 果 的 影响。 


BS 7.3 BITA T TensorFlowse Hea & RFEA Rie ° IX — T 
解 了 TensorFlow 通 过 队列 实现 多 线程 的 机 制 ， 并 介绍 了 TensorFlow 提 供 
的 芳 数 来 进一步 支持 并 行 化 的 处 理 输入 数据 。 在 这 一 节 中 还 给 出 了 一 
个 完整 的 数据 预 处 理 流程 图 和 TensorFlow 程 序 框架 。 


(1)_ 关于 pyplot 更 加 详细 的 介绍 可 以 参考 http://matplotlib.org/index.html 


(2)_ 原 始 图 像 是 彩色 的 ， 在 GitHub 代 码 库 里 有 原始 图 像 。 


(3). 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bilinear_interpolation ° 
(4)_ 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Nearest-neighbor_interpolation ° 


(5) 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bicubic_interpolation ° 


(6)_ 在 黑白 图 片上 色相 的 调整 不 是 特别 明显 ， 在 彩色 图 片上 的 效果 会 比较 明显 。 


D. 本 章 中 主要 以 图 像 识 别 应 用 为 背景 介绍 数据 预 处 理 流程 ， 但 读者 可 以 很 容易 将 这 个 框架 应 
到 其 他 类 型 的 数据 上 。 


(8)_ 第 3 章 介 绍 了 TensorFlow 计 算 图 中 集合 的 概念 。 


(9)_TFRecord 格 式 在 7.1 节 中 有 介绍 。 


(10)_ 如 采 不 需要 随机 打 乱 输入 数据 顺序 ， 可 以 使 用 tf.train.batch_join 范 数 完成 类 似 功能 。 


第 8 章 ”循环 神经 网 络 


第 6 章 中 讲解 了 卷 积 神经 网 络 的 网 络 结构 ， 并 介绍 了 如 何 使 用 卷 积 神经 
网 络 解决 图 像 识 别 问 题 。 本 章 中 将 介绍 另外 一 种 常用 的 神经 网 络 结构 
循环 神经 网 络 (recurrent neural network, RNN) 以 及 循环 神经 网 
络 中 的 一 个 重要 结构 一 一 长 短 时 记忆 网 络 (long short-term memory , 
LSTM) 。 本 章 也 将 介绍 循环 神经 网 络 在 自然 语言 处 理 (natural 
language processing, NLP) 问题 以 及 时 序 分 析 问 题 中 的 应 用 ， 并 给 出 
具体 的 TensorFlow 程 序 来 解决 一 些 经 典 的 问题 。 


首先 在 8.1 节 将 介绍 循环 神经 网 络 的 基本 知识 并 通过 机 絮 翻 译 问题 说 明 
循环 神经 网 络 是 如 何 被 应 用 的 。 这 一 和 中 将 给 出 一 个 具体 的 样 例 来 说 
明 一 个 最 简单 的 循环 神经 网 络 的 前 同 传 播 时 是 如 何 工 作 的 。 然 后 在 8.2 
节 中 将 介绍 循环 神经 网 络 中 最 重要 的 结构 长 短 时 记忆 网 络 (long 
short term memory, LSTM) 的 网 络 结构 。 在 这 一 节 中 将 大 致 介绍 LSTM 
结构 中 的 主要 元 素 ， 并 给 出 具体 的 TensorFlow 程 序 来 实现 一 个 使 用 了 
LSTM 结 构 的 循环 神经 网 络 。 接 着 在 8.3 节 中 将 介绍 一 些 常 用 的 循环 神 
经 网 络 的 变种 。 最 后 在 8.4 广 中 将 结合 TensorFlow 对 这 些 网 络 结 构 的 支 
持 ， 通 过 两 个 经 典 的 循环 神经 网 络 模型 的 应 用 案例 ， 介 绍 如 何 针 对 语 
言 模型 和 时 序 预测 两 个 问题 ， 设 计 和 使 用 循环 神经 网 络 。 


8.1 ”循环 神经 网 络 简介 人 ) 


循环 神经 网 络 (recurrent neural network, RNN) 源 自 于 1982 年 由 
Saratha Sathasivam 提 出 的 霍 普 菲 尔 德 网 络 宇 。 霍 普 菲 尔 德 网 络 因为 实现 


困难 ， 在 其 提出 时 并 且 没 有 被 合适 地 应 用 。 该 网 络 结构 也 于 1986 年 后 
被 全 连接 神经 网 络 以 及 一 些 传 统 的 机 絮 学 习 算 法 所 取代 。 然 而 ， 传 统 
的 机 如 学 习 算法 非常 依赖 于 人 工 提 取 的 特征 ， 使 得 基于 传统 机 器 学 习 
的 图 像 识 别 、 语 音 识别 以 及 目 然 语 言 处 理 等 问题 存在 特征 提取 的 瓶 
贷 。 而 基于 全 连接 神经 网 络 的 方法 也 存在 参数 太 多 、 无 法 利用 数据 中 
时 间 序 列 信息 等 问题 。 随 着 更 加 有 效 的 循环 神经 网 络 结构 被 不 断 提 
出 ， 循 环 神经 网 络 控 据 数据 中 的 时 序 信息 以 及 语义 信息 的 深度 表达 能 
力 被 充分 利用 ， 并 在 语 首 识别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 
方面 实现 了 突破 。 


循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 。 在 之 前 介绍 的 全 连 
接 神 经 网 络 或 卷 积 神经 网 络 模型 中 ， 网 络 结构 都 是 从 输入 层 到 隐 含 层 
再 到 输出 层 ， 层 与 层 之 间 是 全 连接 或 部 分 连接 的 ， 但 每 层 之 间 的 节点 
征 无 连接 的 。 考 虑 这 样 一 个 问题 ， 如 条 要 预测 句子 的 下 一 个 单词 是 什 
么 ， 一 般 需 要 用 到 当前 单词 以 及 前 面 的 单词 ， 因 为 句子 中 前 后 单词 并 
不 是 独立 的 。 比 如 ， 当 前 单词 是 “很 ”， 前 一 个 单词 是 “< 天空， 那么 下 一 
个 单词 很 大 概率 是 “ 蓝 ”。 循 环 神 经 网 络 的 来 源 就 古 为 了 刻画 一 个 序列 
当前 的 输出 与 之 前 信息 的 关系 。 从 网 络 结构 上 ， 循 环 神经 网 络 会 记忆 
之 前 的 信息 ， 并 利用 之 前 的 信息 影响 后 面 结 点 的 输出 。 也 就 是 说 ， 循 
环 神经 网 络 的 隐藏 层 之 间 的 结扎 征 有 连接 的 ， 隐 藏 层 的 输入 不 仅 包括 
输入 层 的 输出 ， 还 包括 上 一 时 刻 隐藏 层 的 输出 。 


图 8-1 展 示 了 一 个 典型 的 循环 神经 网 络 。 对 于 循环 神经 网 络 ， 一 个 非常 
重要 的 概念 就 是 时 刻 。 循 环 神经 网 络 会 对 于 每 一 个 时 刻 的 输入 结合 当 
前 模型 的 状态 给 出 一 个 输出 。 从 图 8-1 中 可 以 看 到 ， 循 环 神经 网 络 的 主 
体 结构 A 的 输入 除了 来 目 输 入 层 X,， 还 有 一 个 人 循环 的 边 来 提供 当前 时 刻 
的 状态 。 在 每 一 个 时 刻 ， 循 环 神经 网 络 的 模块 A 会 读 取 t 时 刻 的 输入 X， 
， 并 输出 一 个 值 nh,。 同 时 A 的 状态 会 从 当前 步 传 递 到 下 一 步 。 因 此 ， 御 
环 神经 网 络 理论 上 可 以 被 看 作 是 同一 神经 网 络 结构 被 无 限 复 制 的 结 
东 。 但 出 于 优化 的 考虑 ， 目 前 循环 神经 网 络 无 法 做 到 真正 的 无 限 循 
现实 中 一 般 会 将 循环 体 展 开 ， 于 是 可 以 得 到 网 8-2 所 展示 的 


图 8-1 ”循环 神经 网 络 经 典 结 构 示意 图 © 


在 图 8-2 中 可 以 更 加 清楚 的 看 到 循环 神经 网 络 在 每 一 个 时 刻 会 有 一 个 输 
入 X,， 然 后 根据 循环 神经 网 络 当前 的 状态 4 ,提供 一 个 输出 h,。 而 人 循环 
神经 网 络 当 前 的 状态 A 是 根据 上 一 时 刻 的 状态 4A， 和 当前 的 输入 X 共同 
决定 的 。 从 循环 神经 网 络 的 结构 特征 可 以 很 容易 得 出 它 最 擅长 解决 的 
问题 是 与 时 间 序 列 相 关 的 。 循 环 神经 网 络 也 是 处 理 这 类 问题 时 最 自然 
的 神经 网 络 结构 。 对 于 一 个 序列 数据 ， 可 以 将 这 个 序列 上 不 同时 刻 的 
数据 依次 传 入 循环 神经 网 络 的 输入 层 ， 而 输出 可 以 是 对 序列 中 下 一 个 
时 刻 的 预测 ， 也 可 以 是 对 当前 时 刻 信息 的 处 理 结果 (比如 语音 识别 结 
R) 。 循 环 神经 网 络 要 求 每 一 个 时 刻 都 有 一 个 输入 ， 但 是 不 一 定 每 个 
时 刻 都 需要 有 和 输出。 在 过 去 几 年 中 ， 循 环 神经 网 络 已 经 被 广泛 地 应 用 
T ` 语言 模型 、 机 器 翻译 以 及 时 序 分 析 等 问题 上 ， 并 取得 了 
BVI © 


图 8-2 ”循环 神经 网 络 按时 间 展 开 后 的 结构 


以 机 器 翻译 为 例 来 介绍 循环 神经 网 络 是 如 何 解决 实际 问题 的 。 循 环 神 
经 网 络 中 每 一 个 时 刻 的 输入 为 需要 翻译 的 句子 中 的 单词 。 如 图 8-3 所 
示 ， 需 要 翻译 的 句子 为 ABCD， 那 么 循环 神经 网 络 第 一 段 每 一 个 时 刻 的 
ee ER 
一 段 中 ， 和 循环 神经 网 络 没 有 输出 。 从 结束 符 ““ 开 始 ， 循 环 神经 网 络 
进入 翻译 阶段 。 该 阶段 中 每 二 个 时 刻 的 输入 是 上 二 个 时 刻 的 给 出 ， 而 
最 终 得 到 的 输出 就 是 句子 ABCD 翻 译 的 结果 。 -o 
ABCD 对 应 的 翻译 结果 就 是 XYZ， 而 Q 是 代表 翻译 结束 的 结 
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图 8-3 ”循环 神经 网 络 实现 序列 预测 示意 图 


如 之 前 所 介绍 ， 循 环 神经 网 络 可 以 被 看 做 是 同一 神经 网 络 结构 在 时 间 
序列 上 被 复制 多 次 的 结果 ， 这 个 被 复制 多 次 的 结构 被 称 之 为 循环 体 。 
如 何 设计 循环 体 的 网 络 结构 古 循环 神经 网 络 解决 实际 问题 的 关键。 和 
卷 积 神经 网 络 过 滤器 中 参数 是 共享 的 类 似 ， 在 循环 神经 网 络 中 ， 循 环 
体 网 络 结构 中 的 参数 在 不 同时 刻 也 是 共享 的 。 


图 8-4 展 示 了 一 个 使 用 最 简单 的 循环 体 结构 的 循环 神经 网 络 ， 在 这 个 循 
环 体 中 只 使 用 了 一 个 类 似 全 连接 层 的 神经 网 络 结构 。 下 面 将 通过 图 8-4 
中 所 展示 的 神经 网 络 来 介绍 循环 神经 网 络 前 向 传播 的 完整 流程 。 循 环 
神经 网 络 中 的 状态 是 通过 一 个 向 量 来 表示 的 ， 这 个 向 量 的 维度 也 称 为 
循环 神经 网 络 隐藏 层 的 大 小 ， 假 设 其 为 nh。 从 图 8-4 中 可 以 看 出 ， 循 环 
体 中 的 神经 网 络 的 输入 有 两 部 分 ， 一 部 分 为 上 一 时 刻 的 状态 ， 邦 一 部 
分 为 当前 时 刻 的 输入 样本 。 对 于 时 间 序 列 数据 来 说 (比如 不 同时 刻 商 
品 的 销量 ) ， 每 一 时 刻 的 输入 样 例 可 以 是 当前 时 刻 的 数值 (比如 销量 
值 ) ; 对 于 语言 模型 来 说 ， 输 入 样 例 可 以 是 当前 单词 对 应 的 单词 向 量 


(word embedding) =% o 


© 


图 8-4 ”使 用 单 层 全 连接 神经 网 络 作为 循环 体 的 循环 神经 网 络 结构 图 O 


假设 输入 向 量 的 维度 为 x， 那 么 图 8-4 中 循环 体 的 全 连接 层 神经 网 络 的 输 
入 大 小 为 ht+x。 也 束 是 将 上 一 时 刻 的 状态 与 当前 时 刻 的 输入 拼接 成 一 个 
大 的 同 量 作为 循环 体 中 神经 网 络 的 输入 中。 因为 该 神经 网 络 的 输出 为 当 
前 时 刻 的 状态 ， 于 是 输出 层 的 市 点 个 数 也 为 h ， 循 环 体 中 的 参数 个 数 为 
(h+x) xh+h 个 。 从 图 8-4 中 可 以 看 到 ， 循 环 体 中 的 神经 网 络 输出 不 但 
提供 给 了 下 一 时 刻 作为 状态 ， 同 时 也 会 提供 给 当前 时 刻 的 输出 。 为 了 
将 当前 时 刻 的 状态 转化 为 最 终 的 输出 ， 循 环 神经 网 络 还 需要 另外 一 个 
全 连接 神经 网 络 来 完成 这 个 过 程 。 这 和 卷 积 神经 网 络 中 最 后 的 全 连接 
层 的 意义 是 一 样 的 。 类 似 的 ， 不 同时 刻 用 于 输出 的 全 连接 神经 网 络 中 
的 参数 也 是 一 致 的 。 为 了 让 读者 对 循环 神经 网 络 的 前 同 传 播 有 一 个 更 
0 es een ere ree Pie 
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图 8-5 ”循环 神经 网 络 的 前 向 传播 的 计算 过 程 示意 图 


在 图 8-5 中 ， 假 设 状 态 的 维度 为 >， 输入、 输出 的 维度 都 为 |， 而且 循 环 
体 中 的 全 连接 层 中 权重 为 : 


Waa OSs 04 
0.5 0.6 


ERK brm 二 [0.1, 一 0 .1|， 用 于 输出 的 全 连接 导 
权重 为 | 


1.0 
2.0 
偏 置 项 大 小 为 记 a a Q| 。 那么 在 时 刻 , ， 因 为 没有 上 一 


时 刻 ， 所 以 将 状态 初始 化 为 [0,0]， 而 当前 的 输入 为 1， 所 以 拼接 得 到 的 
侣 量 为 [0,0,1]， 通 过 循环 体 中 的 全 连接 层 神 经 网 络 得 到 的 结果 为 : 


1 0 
(Uo 03 04 O-A = aml) 0537 48 
15 06 


这 个 结 末 将 作为 下 一 时 刻 的 输入 状 在 ， 同 时 循环 神经 网 络 也 会 使 用 该 
状态 生成 输出 。 将 该 向 量 作 为 输入 提供 给 用 于 输出 的 全 连接 神经 网 络 
可 以 得 到 i, 时 刻 的 最 终 输 出 : 


Wowiput = 


o 11.0 
[0.537,0.462] x| ,0|+0.1=1.56 


使 用 i, 时 刻 的 状态 可 以 类 似 地 推导 得 出 t ,时刻 的 状态 为 [0.860, 0.884], 
而 tL 时 刻 的 输出 为 2.73。 在 得 到 循环 神经 网 络 的 前 辐 传 播 结果 之 后 ， 可 
以 和 其 他 神经 网 络 类 似 地 定义 损失 函数 。 循 环 神经 网 络 唯一 的 区 别 在 
于 因为 它 每 个 时 刻 都 有 一 个 输出 ， 所 以 循环 神经 网 络 的 总 损失 为 所 有 


时 刻 〈 或 者 部 分 时 刻 ) 上 的 损失 画 数 的 总 和 。 以 下 代码 实现 了 这 个 简 
单 的 循环 神经 网 络 前 癌 传 播 的 过 程 。 


import numpy as np 


Caer ibs YAY 


state = [0.0, 0.0] 


# 分 开 定义 不 同 输入 部 分 的 权重 以 方便 操作 。 


w_cell_state = np.asarray([[0.1, 0.2], [0.3, 0.4]]) 
w_cell_input = np.asarray([0.5, 0.6]) 


b_cell = np.asarray([0.1, -0.1]) 


# 定义 用 于 输出 的 全 连接 层 参数 。 
w_output = np.asarray([[1.0], [2.0]]) 


b_output = 0.1 


# 按照 时 间 顺 序 执行 循环 神经 网 络 的 前 向 传播 过 程 。 
for i in range(len(X)): 
# 计算 循环 体 中 的 全 连接 层 神 经 网 络 。 


before_activation = np.dot(state, w_cell_state) + 


X[i] * w_cell_input + b_cell 


state = np.tanh(before_activation) 


# 根据 当前 时 刻 状态 计算 最 终 输 出 。 


final output = np.dot(state, w_output) + b_output 


# 输出 每 个 时 刻 的 信息 。 
print "before activation: ", before_activation 
print "state: ", state 


print "output: ", final_output 


和 其 他 神经 网 络 类 似 ， 在 定义 完 损失 函数 之 后 ， 套 用 第 4 章 中 介绍 的 优 
化 框架 TensorFlow 束 可 以 目 动 完成 模型 训练 的 过 程 。 这 里 唯一 需要 特别 
指出 的 是 ， 理 论 上 循环 神经 网 络 可 以 文 持 任 意 长 度 的 序列 ， 然 而 在 实 
际 中 ， 如 果 序 列 过 长 会 导致 优化 时 出 现 梯度 消散 的 问题 (the vanishing 
gradient problem) *, 所 以 实际 中 一 般 会 规定 一 个 最 大 长 度 ， 当 序列 长 
度 超过 规定 长 度 之 后 会 对 序列 进行 截断 。 


8.2 ”长 短 时 记忆 网 络 (LSTM) 结构 


循环 神经 网 络 工作 的 关键 点 束 是 使 用 历史 的 信息 来 帮助 当前 的 决策 。 
例如 使 用 之 前 出 现 的 单词 来 加 强 对 当前 文字 的 理解 。 循 环 神经 网 络 可 


以 更 好 地 利用 传统 神经 网 络 结构 所 不 能 建 模 的 信息 ， 但 同时 ， 这 也 和 融 
来 了 更 大 的 技术 挑战 一 一 长 期 依赖 (long-term dependencies) 问题 。 


在 有 些 问题 中 ， 模 型 仅仅 需要 短期 内 的 信息 来 执行 当前 的 任务 。 比 如 
预测 短语 “大 海 的 颜色 是 蓝 色 ”中 的 最 后 一 个 单词 “ 蓝 色 ”时 ， 模 型 并 不 需 
要 记忆 这 个 短语 之 前 更 长 的 上 下 文 信息 一 一 因为 这 一 句 话 已 经 包 售 了 
足够 的 信息 来 预测 最 后 一 个 词 。 在 这 样 的 场景 中 ， 相 天 的 信息 和 待 预 
a 循环 神经 网 络 可 以 比较 容易 地 利用 先 
前 信息 ° 


但 同样 也 会 有 一 些 上 下 文 场景 更 加 复杂 的 情况 。 比 如 当 模 型 试 厦 去 预 
测 段 落 “ 某 地 开设 了 大 量 工 厂 ， 空 气 污 染 十 分 户 重 .…... 这 里 的 天 空 都 古 
灰色 的 ”的 最 后 一 个 单词 时 ， 仪 仅 根据 短期 依赖 束 无 法 很 好 的 解决 这 种 
问题 。 因 为 只 根据 最 后 一 人 小段， 最 后 一 个 词 可 以 是 “ 监 色 的 ?或 者 "灰色 
的 ”。 但 如 果 模 型 需要 预测 清楚 具体 是 什么 颜色 ， 就 需要 考虑 先前 提 到 
但 离 当 前 位 置 较 远 的 上 下 文 信息 。 因 此 ， 当 前 预测 位 置 和 相关 信息 之 
间 的 文本 间隔 就 有 可 能 变 得 很 大 。 当 这 个 间 阳 不 断 增 大 时 ， 类 似 图 8-4 
中 给 出 的 位 单 循 环 神经 网 络 有 可 能 会 炎 失 学 习 到 距离 如 此 远 的 信息 的 
能 力 。 或 者 在 复杂 语言 场景 中 ， 有 用 信息 的 间隔 有 大 有 小 、 长 短 不 
一 ， 循 环 神经 网 络 的 性 能 也 会 受到 限制 。 


长 短 时 记忆 网 络 (ong short term memory, LSTM) 的 设计 就 是 为 了 解决 
这 个 问题 ， 而 循环 神经 网 络 被 成 功 应 用 的 关键 就 是 LSTM。 在 很 多 的 任 
务 上 ， 采 用 LSTM 结 构 的 循环 神经 网 络 比 标准 的 循环 神经 网 络 表现 更 
好 。 在 下 文中 将 重点 介绍 LSTM 结 构 。LSTM 结 构 是 由 Sepp Hochreiter 和 
Jürgen Schmidhuber “于 1997 年 提出 的 ， 它 是 一 种 特殊 的 人 循环 体 结构 。 
如 图 8-6 所 示 ， 与 单一 tanh 循 环 体 结构 不 同 ，LSTM 是 一 种 拥有 三 
个 “ 门 ” 结 构 的 特殊 网 络 结构 。 


图 8-6 LSTM 单 元 结构 示意 图 


LSTM Se — 286) ”的 结构 让 信息 有 选择 性 地 影响 循环 神经 网 络 中 每 个 时 
刻 的 状态 。 所 谓 “1 ”的 结构 就 古 一 个 使 用 sigmoid 和 神经 网 络 和 一 个 按 位 
做 乘法 的 操作 ， 这 两 个 操作 合 在 一 起 束 是 一 个 “| ]” 的 结构 。 之 所 以 该 
结构 叫做 * 门 ?是 因为 使 用 sigmoid 作 为 激活 函数 的 全 连接 神经 网 络 层 会 
输出 一 个 0 到 1 之 间 的 数值 ， 搬 述 当 前 输入 有 多 少 信息 量 可 以 通过 这 个 
结构 。 于 是 这 个 结构 的 功能 就 类 似 于 一 局 门 ， 当 门 打开 时 (sigmoid 神 
经 网 络 层 输出 为 1 时 ) ， 全 部 信息 都 可 以 通过 ; 当 门 关上 时 (sigmoid 神 
经 网 络 层 输出 为 0 时 ) ， 任 何 信息 都 无 法 通过 。 本 节 下 面 的 篇 幅 将 介绍 
每 一 个 “ 门 ?是 如 何 工作 的 。 


为 了 使 循环 神经 网 更 有 效 的 保存 长 期 记忆 ， 独 8-6 中 “中 所 门 ? 和 “输入 
1]” 至 关 重 要 ， 它 们 是 LSTM 结 构 的 核心 。“ 遗 坪 1 的 作用 是 让 循环 神 
经 网 络 “ 起 记 ” 之 前 没有 用 的 信息 。 比 如 一 段 文 章 中 先 介 绍 了 某 地 原来 
征 绿 水 监 天 ， 但 后 来 被 污染 了 。 于 二 在 看 到 被 污染 了 之 后 ， 循 环 神经 
网 络 应 该 “ 扎 记 ”之 前 绿 水 监 天 的 状态 。 这 个 工作 是 通过 “ 遗 起 | ”来 完成 
的 。“ 遗 乐 门 ” 会 根据 当前 的 输入 x,、 上 一 时 刻 状态 c ,和 上 一 时 刻 输出 
,共同 决定 哪 一 部 分 记忆 需要 被 遗 走 。 在 循环 昼 经 网 络 “ 起 记 ” 了 部 分 之 
前 的 状态 后 ， 它 还 需要 从 当前 的 输入 补充 最 新 的 记忆 。 这 个 过 程 整 
we HAT ”完成 的 。 如 图 8-6 所 示 ,“ 输 入 1 ”会 根据 x,、c, ,和 hh, ,决定 哪 
些 部 分 将 进入 当前 时 刻 的 状态 c,。 比 如 当 看 到 文革 中 提 到 环境 被 污染 之 
后 ， 模 型 需要 将 这 个 信息 写 入 新 的 状态 。 通 过 “ 遗 起 1 门 "? 和 “输入 门 ”， 


LSTM2a*4 H] A E NAAR EEE iA Bots, BEE Dik 
到 保留 。 


LSTM 结 构 在 计算 得 到 新 的 状态 c, 后 需要 产生 当前 时 刻 的 输出 ， 这 个 过 
程 写 通过 “输出 门 ?完成 的 。“ 输 出 [会 根据 最 新 的 状态 c、 上 一 时 刻 的 
输出 h, ,和 当前 的 输入 x .来 决定 该 时 刻 的 输出 h,。 比 如 当前 的 状态 为 被 
污染 ， 那 么 “天 空 的 颜色 ”后 面 的 持 词 很 可 能 就 古 “灰色 的 ”。 


相 比 图 8-4 中 展示 的 循环 神经 网 络 ， 使 用 LSTM 结 构 的 循环 神经 网 络 的 
前 向 传播 是 一 个 相对 比较 复杂 的 过 程 。 具 体 LSTM 每 个 “| ]” 中 的 公式 可 
以 参考 论文 Long short-term memory , X H AN Fh Uk ° ZETensorFlow 
中 ，LSTM 结 构 可 以 被 很 商 单 地 实现 。 以 下 代码 展示 了 在 TensorFlow 中 
实现 使 用 LSTM 结 构 的 循环 神经 网 络 的 前 向 传播 过 程 。 


# 定义 一 个 LSTM 结 构 。 在 TensorFlow 中 通过 一 句 简单 的 命令 就 可 以 实现 一 个 完 
整 LSTM 结 构 。 


# LSTM 中 使 用 的 变量 也 会 在 该 函数 中 自动 被 声明 。 


lstm = rnn_cell.BasicLSTMCell(1stm_hidden_size) 


# 将 LSTM 中 的 状态 初始 化 为 全 0 数组 。 和 其 他 神经 网 络 类 似 ， 在 优化 循环 神经 网 络 
时 ， 每 次 也 


# 会 使 用 一 个 batch 的 训练 样本 。 以 下 代码 中 ，batch_size 给 出 了 一 个 batch 的 
大 小 。 


# BasicLSTMCel1l 类 提供 了 zero_state 画 数 来 生成 全 领 的 初始 状态 。 


state = lstm.zero_state(batch size, tf.float32) 


# 定义 损失 函数 。 
loss = 0.0 


# 在 8.1 节 中 介绍 过 ， 虽 然 理论 上 循环 神经 网 络 可 以 处 理 任 意 长 度 的 序列 ， 但 是 在 
训练 时 为 了 


H 避免 梯度 消散 的 问题 ， 会 规定 一 个 最 大 的 序列 长 度 。 在 以 下 代码 中 ， 用 


num_steps 


# RANIATRKE ° 


for i in range(num_steps): 


# 在 第 一 个 时 刻 声 明 LSTM 结 构 中 使 用 的 变量 ， 在 之 后 的 时 刻 都 需要 复 用 之 前 定义 


好 的 变量 。 


if i > 0: tf.get_variable_scope().reuse_variables() 


# 每 一 步 处理 时 间 序 列 中 的 一 个 时 刻 。 将 当前 输入 (current_input ) 和 前 一 时 
刻 状态 


# (state) 传 入 定义 的 LSTM 结 构 可 以 得 到 当前 LSTM 结 构 的 输出 lstm_output 
和 更 新 后 


# 的 状态 state。 

lstm output, state = lstm(current_input, state) 
# 将 当前 时 刻 LSTM 结 构 的 输出 传 入 一 个 全 连接 层 得 到 最 后 的 输出 。 
final output = fully_connected(lstm output) 


# 计算 当前 时 刻 输出 的 损失 。 


loss += calc_loss(final_output, expected_output ) 


# 使 用 类 似 第 4 章 中 介绍 的 方法 训练 模型 。 


通过 上 面 这 段 代 码 看 到 ， 通 过 TensorFlow 可 以 非常 方便 地 实现 使 用 
入 的 了 解 。 


8.3 ”循环 神经 网 络 的 变种 


在 以 上 几 蔬 中 已 经 完整 地 介绍 了 使 用 LSTM 结 构 的 循环 神经 网 络 。 这 一 
节 将 再 介绍 循环 神经 网 络 的 几 个 常用 变种 以 及 它们 所 解决 的 问题 ， 同 
时 也 会 给 出 如 何 使 用 TensorFlow 来 实现 这 些 变 种 。 


8.3.1 ” 双 癌 循环 神经 网 络 和 深层 循环 
神经 网 络 


在 经 典 的 循环 神经 网 络 中 ， 状 态 的 传输 是 从 前 往 后 单 癌 的 。 然 而 ， 在 
有 些 问题 中 ， 当 前 时 刻 的 输出 不 仅 和 之 前 的 状态 有 关系 ， 也 和 之 后 的 
状态 相关 。 这 时 就 需要 使 用 双向 循环 神经 网 络 (bidirectional RNN) 来 
解决 这 类 问题 。 例 如 预测 一 个 语句 中 缺失 的 单词 不 仅 需要 根据 前 文 来 
判断 ， 也 需要 根据 后 面 的 内 容 ， 这 时 双向 循环 网 络 就 可 以 发 挥 它 的 作 
用 。 双 同 循 环 神经 网 络 是 由 两 个 循环 神经 网 络 上 下 县 加 在 一 起 组 成 
的 。 输 出 由 这 两 个 循环 神经 网 络 的 状态 共同 决定 。 图 8-7 展 示 了 一 个 双 
向 循环 神经 网 络 的 结构 图 。 


从 图 8-7 中 可 以 看 到 ， 双 疝 循环 神经 网 络 的 主体 结构 就 是 两 个 单 向 循环 
神经 网 络 的 结合 。 在 每 一 个 时 刻 t， 输 入 会 同时 提供 给 这 两 个 方 癌 相反 
的 循环 神经 网 络 ， 而 输出 则 是 由 这 两 个 单 癌 循环 神经 网 络 共同 决定 。 
双 回 循环 神经 网 络 的 前 同 传播 过 程 和 单 回 的 循环 神经 网 络 十 分 类 似 ， 

这 里 束 不 再 发 述 。 更 多 关于 双 辐 神经 网 络 的 介绍 可 以 参考 Mike Schuster 
和 Kuldip K. Paliwal 发 表 的 论文 Bidirectional recurrent neural networks 四 


图 8-7 ”双向 循环 神经 网 络 结构 示意 图 


深层 循环 神经 网 络 (deepRNN) 是 循环 神经 网 络 的 另外 一 种 变种 。 为 
了 增强 模型 的 表达 能 力 ， 可 以 将 每 一 个 时 刻 上 的 循环 体重 复 多 次 。 图 8- 
8 给 出 了 深层 循环 神经 网 络 的 结构 示意 图 。 从 图 8-8 中 可 以 看 到 ， 相 比 
8.1 廊 中 介绍 的 循环 神经 网 络 ， 深 层 循环 神经 网 络 在 每 一 个 时 刻 上 将 循 
环 体 结构 复制 了 多 次 。 和 卷 积 神经 网 络 类 似 ， 每 一 层 的 循环 体 中 参数 
是 一 致 的 ， 而 不 同 层 中 的 参数 可 以 不 同 。 为 了 更 好 地 文 持 深层 循环 神 
经 网 络 ，TensorFlow 中 提供 了 MultiRNNCell 类 来 实现 深层 循环 神经 网 络 
的 前 向 传播 过 程 。 以 下 代码 展示 如 何 使 用 这 个 类 。 


图 8-8 ”深层 循环 神经 网 络 结构 示意 图 


# 定义 个 一 个 基本 的 LSTM 结 构 作为 循环 体 的 基础 结构 。 深 层 循环 神经 网 络 也 支持 
使 用 其 他 的 循环 


# 体 结 。 
lstm = rnn_cell.BasicLSTMCell(1lstm_size) 


# 通过 MulLtiRNNCe11I 类 实现 深层 循环 神经 网 络 中 每 一 个 时 刻 的 前 向 传播 过 程 。 
其 中 


# number_of_layers 表 示 了 有 多 少 层 ， 也 就 是 图 8-16 中 从 xt 到 ht 需要 经 过 多 


少 个 LSTM 结 构 。 


stacked_lstm = rnn_cell.MultiRNNCell([lstm] * number_of_laye 
rs) 


# 和 经 典 的 循环 神经 网 络 一 样 ， 可 以 通过 zero_state 画 数 来 获取 初始 状态 。 


state = stacked_lstm.zero_state(batch_size, tf.float32) 


# 和 8.2 节 中 给 出 的 代码 一 样 ， 计 算 每 一 时 刻 的 前 向 传播 结果 。 


for i in range(len(num_steps) ) : 
if i> 0: tf.get_variable_scope().reuse_variables( ) 


stacked_lstm_output, state = stacked_lstm(current_input, sta 
te) 


final_output = fully_connected(stacked_lstm_output) 
loss += calc_loss(final_output, expected_output) 
e 在 TensorFlow 中 只 需要 在 BasicLSTMCell 的 基础 


上 再 封装 一 层 MultiRNNCell 束 可 以 非常 容易 地 实现 深层 循环 神经 网 络 
T o 


8.3.2 ”循环 神经 网 络 的 dropout 


6.4 太 介绍 过 在 卷 积 神经 网 络 上 使 用 dropout 的 方法 。 通 过 dropout， 可 以 
让 卷 积 e (robust) = °- MAJ, EMA N 28 hE 
用 dropout 也 有 同样 的 功能 。 而 且 ， 类 似 卷 积 神经 网 络 只 在 最 后 的 全 连 
接 层 中 使 用 dropout， 循 环 神经 网 络 一 般 只 在 不 同 层 循环 体 结构 之 间 使 


用 dropout， 而 不 在 同一 层 的 循环 体 结构 之 间 使 用 。 也 就 古 说 从 时 刻 t -1 
传递 到 时 刻 t 时 ， 循 环 神经 网 络 不 会 进行 状态 的 dropout; 而 在 同一 个 时 
刻 t 中 ， 不 同 层 循环 体 之 间 会 使 用 dropout 。 


如 图 8-9 展 示 了 循环 神经 网 络 使 用 dropout 的 示意 图 。 假 设 要 从 t-2 时 刻 的 
输入 x 传递 到 t+1 时 刻 的 输出 y, ，， 那 么 x ,将 站 移 传 入 第 一 层 循 环 体 结 
构 ， 这 个 过 程 会 使 用 dropout。 但 是 从 t -2 时 刻 的 第 一 层 循环 体 结 构 传 递 
到 第 一 层 的 t-1、t、t+1 时 刻 不 会 使 用 dropout。 在 t+1 时 刻 的 第 一 层 循 
环 体 结构 传递 到 同一 时 刻 内 更 高 层 的 循环 体 结构 时 ， 会 再 次 使 用 


dropout ° 


Yt—2 Yt—1 Yt Yt+1 Yt+2 
A A A A A 
Tt—2 Tt—1 Tt Tt+1 Tt+2 


图 8-9 ”深层 循环 神经 网 络 使 用 dropout 示 意图 


\ 图 中 实 线 箭 头 表示 不 使 用 dropout， 虚 线 箭头 表示 使 用 dropout) 


在 Tensorflow 中 ， 使 用 tf.nn.rnn_cell.DropoutWrapper 类 可 以 很 容易 实现 
dropout 功 能 。 以 下 代码 展示 了 如 何在 TensorFlow 中 实现 带 dropout 的 循 
环 神 经 网 络 。 


# 定义 LSTM 绪 构 。 


lstm = rnn_cell.BasicLSTMCell(1lstm_size) 


# 使 用 Dropoutwrapper 类 来 实现 dropout 功 能 。 该 类 通过 两 个 参数 来 控制 
dropout 的 概率 ， 


# 一 个 参数 为 input_Keep_prob， 它 可 以 用 来 控制 输入 的 dropout 概 率 2, 
Zan 


# OUtput_keep_prob， 它 可 以 用 来 控制 输出 的 dropout 概 率 。 


dropout_lstm = tf.nn.rnn_cell.DropoutWrapper(lstm, output_ke 
ep_prob=0.5) 


# 在 使 用 了 dropout 的 基础 上 定义 


stacked_lstm = rnn_cell.MultiRNNCell([dropout_lstm] * number 
_of_layers) 


# 和 8.3.1 小 节 中 深层 循环 网 络 样 例 程序 类 似 ， 运 行 前 向 传播 过 程 。 


8.4 循环 神经 网 络 样 例 应 用 


在 以 上 几 市 中 己 经 介绍 了 不 同 循环 神经 网 络 的 网 络 结构 ， 并 给 出 了 具 
体 的 TensorFlow 程 序 来 实现 这 些 循环 神经 网 络 的 前 癌 传 播 过 程 。 这 一 节 
将 给 出 两 个 具体 的 循环 神经 网 络 应 用 样 例 自然 语言 建 模 和 时 序 预 
测 。 在 8.4.1 小 节 中 将 简单 介绍 什么 是 自然 语言 建 模 ， 并 通过 TensorFlow 


实现 在 Penn TreeBank (PTB) 数据 集 上 的 自然 语言 模型 。 在 8.4.2 小 节 
中 将 简单 介绍 TensorFlow 的 高 层 封装 工具 TFLeam， 并 通过 TFLeam 实 现 
对 函数 sin x 取 值 的 预测 。 


8.41 目 然 语言 建 模 


简单 地 说 ， 语 言 模型 的 目的 是 为 了 计算 一 个 句子 的 出 现 概率 。 在 这 里 
把 句子 看 成 是 单词 的 序列 ， 于 是 语 言 模型 需要 计算 的 束 是 p (www, 
owm) 。 利 用 语言 模型 ， 可 以 确定 哪个 单词 序列 出 现 的 可 能 性 更 
大 ， 或 者 给 定 帮 和 干 个 单词 ， 可 以 预测 下 一 个 最 可 能 出 现 的 词语 。 举 个 
音字 转换 的 例子 ， 假 设 输 入 的 拼音 串 为 “xianzaiquna"， 它 的 输出 可 以 
是 “西安 在 去 哪 "， 也 可 以 是 “现在 去 哪 "。 根 据 语 言 凋 识 可 以 知道 ， 转 换 
成 第 二 个 的 概率 更 高 。 语 言 模型 就 可 以 得 到 后 者 的 概率 大 于 前 者， 
此 在 大 多 数 情况 下 转换 成 后 者 比较 合理 。 


ae ee 首先 一 个 句子 可 被 看 成 是 一 个 单词 
TA; 


S=(wy 22 W3 Wa W537 Wi ) 
其 中 m 为 句子 的 长 度 。 那 么 ， 它 的 概率 可 以 表示 为 : 


p SED wW, W3, W4, W5, Wy) 


=p(w ) p(n: w) (3 W] W)) ion pW Wi Ws Wnt) 


要 计算 一 个 句子 出 现 的 概率 ， 束 需要 知道 上 面 公式 中 等 式 右边 中 每 一 
项 的 取 值 。 等 式 右边 的 每 一 项 都 是 语言 模型 中 的 一 个 参数 。 一 般 来 
说 ， 任 何 一 门 语言 的 词汇 量 都 很 大 ， 词 汇 的 组 合 更 不 计 其 数 。 为 了 信 
计 这 些 参数 的 取 值 ， 常 见 的 方法 有 n-gram 方 法 、 决 策 树 、 了 最 大 灶 模 
型 、 条 件 随 机 场 、 神 经 网 络 语言 模型 ， 等 等 。 本 小 市 将 先 以 其 中 最 人 简 
单 的 n-gram 模型 来 介绍 语言 模型 问题 以 及 评价 模型 优 务 的 标准 。n-gram 
模型 有 一 个 有 限 历 史 假 设 : 当前 单词 的 出 现 概率 仅仅 与 前 面 的 mn -1 个 单 
词 相关 。 因 此 以 上 公式 可 以 近似 为 : 


ny i TT! | 
p (Sp (Wi Ny z EF Dp Wi) 


n-gram 模型 里 的 n FSA ce S A KEA E BE FT “SS o n 可 
以 取 1、2、3， 这 时 n-gram 模 型 分 别称 为 unigram、bigram 和 trigram 语 言 
模 型 o n-gram 模型 中 需要 估计 的 参数 为 条 件 概 率 
(Vi Winns. ++, Wi- ) ° 假设 时 种 语言 的 单词 表 大 4 为 


k ， 那 么 n-gram 模型 需要 估计 的 不 同 参 数 数量 为 k"。 当 n 越 大 时 ，n- 

gram 模 型 理论 上 越 准 确 ， 但 也 越 复 杂 ， 需 要 的 计算 量 和 训练 语 料 数据 

量 也 束 越 大 。 因 此 ， 最 常用 的 是 bigram， 其 次 是 unigram 和 和 trigram。n W 

>4 的 情况 非常 少 。n-gram 模 型 的 参数 一 般 采 用 最 大 似 然 估计 
(maximum likelihood estimation, MLE) 的 方法 计算 : 


r 


C( Wi-ntl,"''; Wil; wi) 


Wi-n+] UUS Wi-] ) a 


p(w: = 
Cl Win 5 Wit) 


其 中 C X) 表示 单词 序列 X 在 训练 语 料 中 出 现 的 次 数 。 训 练 语 料 的 规 
模 越 大 ， 参 数 估计 的 结果 越 可 徘 。 但 即使 训练 数据 的 规模 非常 大 时 ， 
还 是 会 有 很 多 单词 序列 在 训练 语 料 中 没有 出 现 过 ， 这 就 会 导致 很 多 参 
数 为 0。 举 个 例子 来 说，IBM 使 用 了 366M 瑞 语 语 料 训练 rigram， 发 现 
14.7% 的 trigram 和 2.2% 的 bigram 在 训练 中 没有 出 现 。 为 了 避免 因为 乘 以 
0 而 导致 整个 概率 为 0， 使 用 最 大 似 然 估计 方 法 时 都 需要 加 入 平滑 避免 
参数 取 值 为 0。 使 用 n-gram 建立 语言 模型 的 细 市 不 再 袭 述 ， 感 兴趣 的 读 
者 可 以 看 戎 书籍 Information Retrieval: Implementing and Evaluating 
Search Engines ®- ° 


语言 模型 效果 好 坏 的 常用 评价 指标 是 复杂 度 (perplexity) 。 简 单 来 
谨 ，perplexity 值 刻画 的 就 是 通过 某 一 个 语言 模型 估计 的 一 句 话 出 现 的 
概率 。 比 如 当 已 经 知道 (w ,yw ,yw ,,...,wm ) 这 人 句 话 出 现在 语料库 之 
中 ， 那 么 通过 语言 模型 计算 得 到 的 这 人 句 话 的 概率 越 高 越 好 ， 也 就 是 
perplexity 值 越 小 越 好 。 计 算 perplexity 值 的 公式 如 下 : 


1 


Perplexity(S)=p(w1, w2,W3,°°.Wm) ™ 


m 
B l 
P(W1,W2,W3,°°; Wm) 


m 


m ] 


PT Pwi [wi ,2 Wi) 


复杂 度 perplexity 表 示 的 概念 其 实 是 平均 分 支 系数 (average branch 
factor) ， 即 模型 预测 下 一 个 词 时 的 平均 可 选择 数量 。 例 如 ， 考 虑 一 个 
由 0~9 这 10 个 数字 随机 组 成 的 长 度 为 m 的 序列 。 由 于 这 10 个 数字 出 现 的 


概率 是 随机 的 ， 所 以 每 个 数字 出 现 的 概率 是 一 一 。 因 此 ， 在 任意 时 


刻 ， 模 型 都 有 10 个 等 概率 的 候选 答案 可 以 选择 ， 于 是 perplexity 就 是 10 
(有 10 个 合理 的 答案 ) 。perplexity 的 计算 过 程 如 下 : 


Perplexity(S)= [| y~” 10 
E 一 
10 


因此 ， 如 果 一 个 语言 模型 的 perplexity 是 89， 束 表示 ， 平 均 情 况 下 ， 模 
型 预测 下 一 个 词 时 ， 有 89 个 词 等 可 能 地 可 以 作为 下 一 个 词 的 合理 选 
择 。 男 一 种 常用 的 perplexity 表 达 形 式 如 下 : 


1, W2 pea Wi-1) 


log( perplexity(S) 


27 wih 
m 


相 比 乘积 开 根 号 的 方式 ， 使 用 加 法 的 形式 可 以 加 速 计算 ， 这 也 有 效 地 
避免 了 概率 为 0 时 导致 整个 计算 结果 为 0 的 问题 。 


除了 n-gram 模 型 ， 循 环 神经 网 络 也 可 以 用 来 对 自然 语言 建 模 。 考 虑 如 
图 8-10 所 示 的 循环 神经 网 络 ， 每 个 时 刻 的 输入 为 一 个 句子 中 的 单词 ， 而 
每 个 时 刻 的 输出 为 一 个 概率 分 布 ， 表 示 句 子 中 下 一 个 位 置 为 不 同 单词 
的 概率 。 通 过 这 种 方式 ， 对 于 给 定 的 句子 ， 就 可 以 通过 循环 神经 网 络 


的 前 向 传播 过 程 计算 出 力 ( Wi| Wi, e, Wia ) “比如 在 图 8-10 


中 ， 在 第 一 个 时 刻 输入 的 单词 为 "大海 ”， 而 输出 为 p KAE) 。 也 
就 是 在 知道 第 一 个 词 为 "大海 ” 后 ， 其 他 不 同 单词 出 现在 下 一 个 位 置 的 
概率 。 比 如 从 图 8-10 中 可 以 看 出 ，p CAPA”) =0.8 ， 也 就 是 
说 “大 海 "之 后 的 单词 为 的 ”的 概率 为 0.8 。 


类 似 的 ， 过 循环 神经 网 络 可 以 求 得 概率 p (x|“ 丰 将 ”， “Wp 
ee “AY”, “PAE” ) `p QAE, “AI, “E” , Æ”) 
FEH URERA E ASNE REE EEE, 从 向 计算 出 这 
句 话 的 perplexity 值 。 在 本 小 市 后 面 的 篇 幅 中 将 给 出 具体 的 TensorFlow 代 
码 来 实现 通过 循环 神经 网 络 对 = 然 语 1A 言 建 模 。 


图 8-10 使 


循环 神 


经 网 


颜色 : 0.9, 
深度 : 0.05, 


实现 


PTB 文 本 数据 集 介 绍 


PTB (Penn Treebank Dataset) 文本 数据 集 是 语言 模型 学 习 中 目前 最 广 
泛 使 用 的 数据 集 。 本 小 节 将 在 PTB 数 据 集 上 使 用 循环 神经 网 络 实现 语言 
模型 。 在 给 出 语言 模型 代码 之 前 将 先 简 单 介绍 PTB 数 据 集 的 格式 以 及 
TensorFlow 对 于 PTB 数 据 集 的 文 持 。 首 先 ， 需 要 下 载 来 源 于 Tomas 
Mikolov 网 站 上 的 PTB 数 据 。 数 据 的 下 载 地 址 为 : 


http://www. fit.vutbr.cz/~imikolov/rnnim/simple-examples.tgz 


将 下 载 下 来 的 文件 解压 之 后 可 以 得 到 如 下 文件 夹 列表 


1-train/ 


2-nbest-rescore/ 


3-combination/ 


4-data-generation/ 
5-one-iter/ 
6-recovery-during-training/ 
7-dynamic-evaluation/ 
8-direct/ 
9-char -based-1m/ 
data/ 
models/ 
rnnim-@.2b/ 
本 书 只 需要 关心 data 文 件 夹 下 的 数据 ， 对 于 其 他 文件 不 再 一 一 介绍 ， 感 


兴趣 的 读者 可 以 自行 参考 README 文 件 。 在 data 文 件 夹 下 总 共有 7 个 文 
fe, 但 本 书 中 将 只 会 用 到 以 下 三 个 文件 ; 


ptb.test.txt # 测试 集 数据 文件 
ptb.train.txt # 训练 集 数据 文件 


ptb.valid.txt # 验证 集 数据 文件 


这 三 个 数据 文件 中 的 数据 已 经 经 过 了 预 处 理 ， 包 含 了 10000 个 不 同 的 词 
语 和 语句 结束 标记 符 〈 在 文本 中 就 是 换行 符 ) 以 及 标记 稀有 词语 的 特 
殊 符号 <unk>。 下 面 展示 了 训练 数据 中 的 一 行 : 


mr. <unk> is chairman of <unk> n.v. the dutch publishing gro 
up 


为 了 让 使 用 PTB 数 据 集 更 加 方便 ，TensorFlow 提 供 了 两 个 函数 来 帮助 实 
EW AHH AY Fob BH oc TSE, TensorFlow#e tt T ptb_raw_data EX AUK iz BY 
PTB 的 原始 数据 ， 并 将 原始 数据 中 的 单词 转化 为 单词 ID。 以 下 代码 展 
示 了 如 何 使 用 这 个 函数 。 


from tensorflow.models.rnn.ptb import reader 


# 存放 原始 数据 的 路 径 。 
DATA_PATH = "/path/to/ptb/data" 


train_data, valid_data, test_data, _ = reader.ptb_raw_data(D 
ATA_PATH) 


# 读 取 数据 原始 数据 。 
print len(train_data) 


print train_data[:100] 


运行 以 上 程序 可 以 得 到 输出 : 
929589 


[9970, 9971, 9972, 9974, 9975, 9976, 9980, 9981, 9982, 9983, 
9954 79936, 9937; SR 9989, 9991) 9992) 9995, 9994. 9995, 999 


6, 9997, 9998, 9999, 2, 9256, 1, 3, 72, 393, 33, 2133, 0, 146, 1 
9, 6, 9207, 276, 407, 3, 2, 23, 1, 13, 141, 4, 1, 5465, 0, 3081, 
1596, 96, 2, 7682, 1, 3, 72, 393, 8, 337, 141, 4, 2477, 657, 21 
70, 955, 24, 521, 6, 9207, 276, 4, 39, 303, 438, 3684, 2, 6, 942 
, 4, 3150, 496, 263, 5, 138, 6092, 4241, 6036, 30, 988, 6, 241, 
760, 4, 1015, 2786, 211, 6, 96, 4] 


从 输出 中 可 以 看 出 训练 数据 中 总 共 包 含 了 929589 个 单词 ， 而 这 些 单词 
被 组 成 了 一 个 非常 长 的 序列 。 这 个 序列 通过 特殊 的 标识 符 给 出 了 每 句 
话 结束 的 位 置 。 在 这 个 数据 集中 ， 句 子 结束 的 标识 符 ID 为 2。 


在 8.1 节 中 介绍 过 ， 虽 然 循环 神经 网 络 可 以 接受 任意 长 度 的 序列 ， 但 是 
在 训练 时 需要 将 序列 按照 某 个 固定 的 长 度 来 截断 。 为 了 实现 截断 并 将 
数据 组 织 成 batch，TensorFlow 提 供 了 ptb_iterator 函 数 。 以 下 代码 展示 了 
如 何 使 用 ptb_iterator 函 数 。 


from tensorflow.models.rnn.ptb import reader 


# 类 似 地 读 取 数据 原始 数据 。 
DATA_PATH = "/path/to/ptb/data" 


train_data, valid_data, test_data, _ = reader.ptb_raw_data(D 
ATA_PATH) 


# 将 训练 数据 组 织 成 batch 大 小 为 4、 截 断 长 度 为 5 的 数据 组 。 


result = reader.ptb_iterator(train_data, 4, 5) 


# 读 取 第 一 个 batch 中 的 数据 ， 其 中 包括 每 个 时 刻 的 输入 和 对 应 的 正确 输出 。 


xX, y = result.next() 
or i en eee S 


print "y:", y 


运行 以 上 程序 可 以 得 到 输出 : 
X: [[9970 9971 9972 9974 9975] 
[ 332 7147 328 1452 8595] 
[1969 9 98 89 2254] 
[ 3 3 2 14 24]] 
y: [[9971 9972 9974 9975 9976] 
[7147 328 1452 8595 59] 
[ © 98 89 2254 0] 


me 2 14 24 198]] 


8-11} 7N T ptb_iterator EK AXA Be ° ptb_iterator EK ASSek 
序列 划分 为 batch_size 段 ， 其 中 batch_size 为 一 个 batch 的 大 小 。 每 次 调用 
ptb_iterator 时 ， 该 函数 会 从 每 一 段 中 读 取 长 度 为 num_step 的 子 序列 ， 其 
中 num_step 为 截断 的 长 度 。 从 上 面 代码 的 输出 可 以 看 到 ， 在 第 一 个 
batch 的 第 一 行 中 ， 前 面 5 个 单词 的 ID 和 整个 训练 数据 中 前 5 个 单词 的 ID 


是 对 应 的 。ptb_iterator 在 生成 batch 时 可 以 会 自动 生成 每 个 batch 对 应 的 
这 个 对 于 每 一 个 单词 ， 它 对 应 的 正确 答案 就 是 该 单词 的 后 
面 一 个 单 词 ” 


Batch 大 小 o 


按 长 度 截断 的 一 个 batch 


图 8-11 将 一 个 长 序列 分 成 batch 并 截断 的 操作 示意 图 
使 用 循环 神经 网 络 实现 语言 模型 


在 介绍 了 语言 模型 的 理论 和 使 用 到 的 数据 集 之 后 ， 下 面 给 出 了 一 个 完 
成 的 TensorFlow 样 例 程序 来 通过 循环 神经 网 络 实现 语言 模型 。 


# -*- Coding: utf-8 -*- 


import numpy as np 


import tensorflow as tf 


from tensorflow.models.rnn.ptb import reader 


DATA_PATH = "/path/to/ptb/data" 
HIDDEN_SIZE = 200 


NUM_LAYERS = 2 


结构 的 层 数 。 


VOCAB_SIZE = 10000 


识 符 和 稀有 


词 。 


LEARNING_RATE = 1.0 


TRAIN_BATCH_SIZE = 20 


TRAIN _NUM_STEP = 35 


# 数据 存放 的 路 径 。 


# 隐藏 层 规模 。 


# 深层 循环 神经 网 络 中 LSTM 


# 词典 规模 ， 加 上 语句 结束 标 


# 单词 标识 符 总 共 一 万 个 单 


# 学 习 速 率 。 
# 训练 数据 batch 的 大 小 。 


# 训练 数据 截断 长 度 。 


# 在 测试 时 不 需要 使 用 截断 ， 所 以 可 以 将 测试 数据 看 成 一 个 超 长 的 序列 。 


EVAL_BATCH_SIZE = 工 


EVAL_NUM_STEP 


II 
m 


NUM_EPOCH = 2 


KEEP_PROB = 0.5 


MAX_GRAD_NORM = 


l 
ol 


# 测试 数据 batch 的 大 小 。 
# 测试 数据 截断 长 度 。 
# 使 用 训练 数据 的 轮 数 。 


# 节点 不 被 dropout 的 概 


# 用 于 控制 梯度 膨胀 的 参 


# 通过 一 个 PTBMode1 类 来 描述 模型 ， 这 样 方便 维护 循环 神经 网 络 中 的 状态 。 
class PTBModel(object): 
def _ init__(self, is_training, batch_size, num_steps): 
# 记录 使 用 的 batch 大 小 和 截断 长 度 。 
self.batch_size = batch_size 


self.num_steps = num_steps 


# 定义 输入 层 。 可 以 看 到 输入 层 的 维度 为 batch_size x num_steps, 这 


和 
# ptb_iterator 琅 数 输 出 的 训练 数据 batch 是 一 致 的 。 


self.input_data = tf.placeholder(tf.int32, [batch_size, 
num_steps ]) 


# TE CUA HIM ° CMER Mptb_iterator WAM OH EMARAE be 


一 样 的 。 


self.targets = tf.placeholder(tf.int32, [batch_size, num 
_steps]) 


# 定义 使 用 LSTM 结 构 为 循环 体 结构 且 使 用 dropout 的 深层 循环 神经 网 络 。 


lstm cell = tf.nn.rnn_cell.BasicLSTMCel1(HIDDEN_SIZE) 


if is_training 


lstm cell = tf.nn.rnn_cell.DropoutWrapper ( 


lstm cell, output_keep_prob=KEEP_PROB) 


cell = tf.nn.rnn_cell.MultiRNNCell([lstm cell] * NUM_LAY 
ERS) 


# 初始 化 最 初 的 状态 ， 也 就 是 全 零 的 向 


o 


ball 


self.initial_state = cell.zero_state(batch_size, tf.floa 
t32) 


# 将 单词 ID 转换 成 为 单词 向 量 。 因 为 总 共有 V0OCAB_SIZE 个 单词 ， 每 个 单词 
向 量 的 维度 


# 为 HIDDEN_SIZE , 所 以 embedding 参数 的 维度 为 
VOCAB_SIZE x HIDDEN_SIZE -° 


embedding = tf.get_variable("embedding", [VOCAB_SIZE, HI 
DDEN_SIZE] ) 


# 将 原本 batch_size x num steps 个 单词 ID 转化 为 单词 向 量 ， 转 化 后 的 
输入 层 维度 


# 为 batch_ size x num steps x HIDDEN_SIZE ° 


inputs = tf.nn.embedding_lookup(embedding, self.input_da 
ta) 


只 在 训练 时 使 用 dropout ° 


if is training: inputs = tf.nn.dropout(inputs, KEEP_PROB 


# 定义 输出 列表 。 在 这 里 先 将 不 同时 刻 LSTM 结 构 的 输出 收集 起 来 ， 再 通过 一 


# 层 得 到 最 终 的 输出 。 
outputs = [] 
# state 存储 不 同 batch 中 LSTM 的 状态 ， 将 其 初始 化 为 0。 
state = self.initial_state 
with tf.variable_scope("RNN"): 
for time_step in range(num_steps): 


if time_step > 0: tf.get_variable_scope().reuse 


variables() 


# 从 输入 数据 中 获取 当前 时 刻 获 的 输入 并 传 入 LSTM 结 构 。 


cell_output, state = cell(inputs[:, time_step, 
], state) 


# 将 当前 输出 加 入 输出 队列 。 


outputs.append(cell_output) 


# 把 输出 队列 展开 成 [batch，hidden size*num_ steps] 的 形状 ， 然 后 


# reshape 成 [batchxnumsteps，hidden _ size] 的 形状 。 


output = tf.reshape(tf.concat(1, outputs), [-1, HIDDEN_S 
IZE]) 


# 将 从 LSTM 中 得 到 的 输出 再 经 过 一 个 全 链接 层 得 到 最 后 的 预测 结果 ， 最 终 的 
预测 结果 在 


# 每 一 个 时 刻 上 都 是 一 个 长 度 为 VOCAB_SIZE 的 数组 ， 经 过 softmax 层 之 后 
Be A 


# 位 置 是 不 同 单词 的 概率 。 


weight = tf.get_variable("weight", [HIDDEN_ SIZE, VOCAB_S 
IZE]) 


bias = tf.get_variable("bias", [VOCAB SIZE] ) 


logits = tf.matmul(output, weight) + bias 


# ENZA A K BH © TensorFlow 提供 了 
sequence 10oss_by examp1e 函 数 来 计 


# 算 一 个 序列 的 交叉 箭 的 和 。 
loss = tf.nn.seq2seq.sequence_loss_by_example( 


[logits], # 预测 的 结 


_size, 


[tf.reshape(self.targets, [-1])], # 期 待 的 正确 答 


# [batch 


num_steps ] 


# 二 维 数 


组 压缩 成 一 维 数组 。 


时 刻 


]) 


# 损失 的 权重 。 在 这 里 所 有 的 权重 都 为 1， 也 就 是 说 不 同 batch 和 不 同 


# 的 重要 程度 是 一 样 的 。 


[tf.ones([batch_size * num_steps], dtype=tf.float32) 


# 计算 得 到 每 个 patch 的 平均 损失 。 
self.cost = tf.reduce_sum(loss) / batch_size 


self.final_state = state 


# 只 在 训练 模型 时 定义 反 向 传播 操作 。 


if not is_training: return 


trainable_variables = tf.trainable_variables() 


# 通过 clip_by_global_norm 画 数控 制 梯度 的 大 小 ， 避 免 梯度 膨胀 的 间 


grads, _ = tf.clip_by_global_norm( 


tf.gradients(self.cost, trainable_variables), MAX_GR 
AD_NORM) 


# 定义 优化 方法 。 


optimizer = tf.train.GradientDescentOptimizer(LEARNING_R 
ATE) 


# 定义 训练 步骤 。 


self.train_op = optimizer.apply_gradients( 


Zip(grads, trainable variables) ) 


# 使 用 给 定 的 模型 model 在 数据 data 上 运行 train_op 并 返回 在 全 部 数据 上 的 
perplexity 值 。 


def run_epoch(session, model, data, train op, output_log): 
# 计算 perplexity 的 辅助 变量 。 

total costs = 0.0 

iters = 0 


state = session.run(model.initial_state) 


# 使 用 当前 数据 训练 或 者 测试 模型 。 


for step, (x, y) in enumerate( 


reader.ptb_iterator(data, model.batch_size, model.num_st 
eps) ): 


# ES Hibatch Liaittrain_opF#it AAE ° NAR BT AY 
fea ae eee 


# 词 为 给 定单 词 的 概率 。 
cost, state, _ = session.run( 
[model.cost, model.final_state, train_op], 
{model.input_data: x, model.targets: y, 
model.initial_state: state}) 


# 将 不 同时 刻 、 不 同 batch 的 概率 加 起 来 就 可 以 得 到 第 二 个 perplexity 公 


# 边 的 部 分 ， 再 将 这 个 和 做 指数 运算 就 可 以 得 到 perpLexity 值 。 
total_costs += cost 


iters += model.num_steps 


只 有 在 训练 时 输出 日 志 。 
if output_log and step % 100 == 
print("After %d steps, perplexity is %.3f" % ( 


step, np.exp(total_costs / iters))) 


# 返回 给 定 模 型 在 给 定数 据 上 的 perplexity 值 。 


return np.exp(total_costs / iters) 


def main(_): 
# 获取 原始 数据 。 


train data, valid data, test_data, _ = reader.ptb_raw_data(D 


ATA_PATH) 


ee 


# 定义 初始 化 函数 。 


initializer = tf.random_uniform_initializer(-0.05, 0.05) 


# 定义 训练 用 的 循环 神经 网 络 模型 。 


with tf.variable_scope("language_model", 


reuse=None, initializer=initialize 


train_model = PTBModel(True, TRAIN _BATCH_SIZE, TRAIN_NUM 


_STEP) 


# 定义 评测 用 的 循环 神经 网 络 模型 。 
with tf.variable_scope("language_model", 


reuse=True, initializer=initialize 


ry 


eval_model = PTBModel(False, EVAL_BATCH_SIZE, EVAL_NUM_S 
TEP) 


with tf.Session() as session: 


tf.initialize_all_variables().run() 


# 使 用 训练 数据 训练 模型 。 
for i in range(NUM_EPOCH): 
print("In iteration: %d" % (i + 1)) 


# 在 所 有 训练 数据 上 训练 循环 神经 网 络 模型 。 


run_epoch(session, train model, 


train_data, train_model.train_op, True) 


# 使 用 验证 数据 评测 模型 效果 。 
valid_perplexity = run_epoch( 


session, eval_model, valid_data, tf.no_op(), 
False) 


print("Epoch: %d Validation Perplexity: %.3f" % ( 


i+ 1, valid_perplexity) ) 


# 最 后 使 用 测试 数据 测试 模型 效果 。 
test_perplexity = run_epoch( 
session, eval_model, test_data, tf.no_op(), False) 


print("Test Perplexity: %.3f" % test_perplexity) 


if _name_ == "main e 


tf.app.run() 


运行 以 上 程序 可 以 得 到 类 似 如 下 的 输出 总 : 


In iteration: 1 

After 0 steps, perplexity is 10003.783 
After 100 steps, perplexity is 1404.742 
After 200 steps, perplexity is 1061.458 
After 300 steps, perplexity is 891.044 


After 400 steps, perplexity is 782.037 


After 1100 steps, perplexity is 228.711 


After 1200 steps, perplexity is 226.093 
After 1300 steps, perplexity is 223.214 
Epoch: 2 Validation Perplexity: 183.443 


Test Perplexity: 179.420 


从 输出 可 以 看 出 ， 在 迭代 开始 时 perplexity 值 为 10003.783， 这 基本 相当 
于 从 一 万 个 单词 中 随机 选择 下 一 个 单词 。 而 在 训练 结束 后 ， 在 训练 数 
据 上 的 perplexity 值 降低 到 了 179.420。 这 表明 通过 训练 过 程 ， 将 选择 下 
一 个 单词 的 范围 从 一 万 个 减 小 到 了 大 约 180 个 。 通 过 调整 LSTM 了 隐藏 层 
a 以 将 perplexity 值 降 到 更 


8.4.2 ”时 间 序 列 预测 


本 小 节 将 介绍 如 何 利 用 循环 神经 网 络 来 预测 正弦 (sin) BHA, Bl8- 
12 给 出 了 sin 函 数 的 函数 图 像 。 在 给 出 具体 的 TensorFlow 代 码 之 前 ， 本 
小 节 将 先 介 绍 另 外 一 个 对 TensorFlow 的 高 层 封 装 TFLearn 2。 和 第 6 
章 中 介绍 的 TensorFlow-Slim 类 似 ， 通 过 使 用 TFLearn 可 以 让 TensorFlow 
代码 效率 进一步 提高 。 


0.5 
0.0 
一 0.5 
一 1.0 
0 200 400 600 800 1000 
图 8-12 sin 函数 曲线 
使 用 TFLearn 自 定义 模型 


TensorFlow 的 另外 一 个 高 层 封 装 TFLearn (集成 在 tf.contrib.learmn 里 ) 对 
训练 TensorFlow 模 型 进行 了 一 些 封装 ， 使 其 更 便于 使 用 。 本 小 市 将 通过 
iris 数 据 集 简单 介绍 如 何 使 用 TFLearn 实 现 分 类 问题 。iris 数 据 集 需 要 通 
过 4 个 特征 (feature) 来 分 辨 三 种 类 型 的 植物 。iris 数 据 集 中 总 共 包含 了 
150 个 样本 各。 以 下 程序 展示 了 如 何 通 过 TFLeam 快 速 的 解决 iris 分 类 问 


题 。 


# -*- coding: utf-8 -*- 


# 为 了 方便 数据 处 理 ， 本 程序 使 用 了 sklearn 工 具 包 ， 关 于 这 个 工具 包 更 多 的 信 
息 可 以 参考 


# http://scikit-learn.org/ ° 

from sklearn import cross_validation 
from sklearn import datasets 

from sklearn import metrics 


import tensorflow as tf 


# 导入 TFLearn ° 


learn = tf.contrib.learn 


# 自 定 义 模型 ， 对 于 给 定 的 输入 数据 〈features) 以 及 其 对 应 的 正确 答案 
(target) ， 返 回 在 这 


# 些 输入 上 的 预测 值 、 损 失 值 以 及 训练 步骤 。 


def my_model(features, target): 


# 将 预测 的 目标 转换 为 one-hot 编 码 的 形式 ， 因 为 共有 三 个 类 别 ， 所 以 向 量 长 度 
为 3。 经 过 转 


# 化 后 ， 第 一 个 类 别 表示 为 (1, 0,0)， 第 二 个 为 (90,1,0)， 第 三 个 为 (0, 0,1)。 


target = tf.one_hot(target, 3, 1, 0) 


# 定义 模型 以 及 其 在 给 定数 据 上 的 损失 画 数 。TFLearn 通 过 
logistic_regression 圭 装 了 


# 一 个 单 层 全 连接 神经 网 络 。 


logits, loss = learn.models.logistic_regression(features, ta 
rget) 


# 创建 模型 的 优化 器 ， 并 得 到 优化 步骤 。 


Pem 


train_op = tf.contrib.layers.optimize_loss( 


loss, # 损失 
tf.contrib.framework.get_global_step(), # 获取 训练 步 数 


并 在 训练 时 更 新 


optimizer='Adagrad', # 定义 优化 
器 


性 


learning_rate=0.1) # 定义 
习 率 


# 返回 在 给 定数 据 上 的 预测 结果 、 损 失 值 以 及 优化 步骤 。 


return tf.arg_max(logits, 1), loss, train_op 


# 加 载 iris 数 据 集 ， 并 划分 为 训练 集合 和 测试 集合 。 
iris = datasets.load_iris() 


x_train, x_test, y_train, y_test = cross_validation.train_te 
st_split( 


iris.data, iris.target, test_size=0.2, random_state=0) 


# 对 自 定义 的 模型 进行 封装 。 


classifier = learn.Estimator(model_fn=my_model) 


# 使 用 封装 好 的 模型 和 训练 数据 执行 100 轮 迭代 。 


classifier.fit(x train, y_train, steps=100) 


# 使 用 训练 好 的 模型 进行 结果 预测 。 


y_predicted = classifier.predict(x_test) 


# 计算 模型 的 准确 度 。 


score = metrics.accuracy_score(y_test, y_predicted) 


print('Accuracy: %.2—%%' % (score * 100) ) 


运行 以 上 程序 可 以 得 到 输出 : 


Accuracy: 90.00% 


通过 以 上 程序 可 以 看 出 TFLearn 既 封装 了 一 些 浓 用 的 神经 网 络 结构 ， 又 
省 去 了 模型 训练 的 部 分 ， 这 让 TensorFlow 的 程序 可 以 变 得 更 加 简短 。 


预测 正弦 函数 


通过 TFLearn， 下 面 的 篇 幅 将 给 出 具体 的 TensorFlow 程 序 来 实现 预测 正 

弦 函 数 sin。 因 为 标准 的 循环 神经 网 络 模型 预测 的 是 离散 的 数值 ， 所 以 

在 程序 中 需要 将 连续 的 sn 函数 曲线 离散 化 。 所 谓 离 散 化 就 是 在 一 个 给 

定 的 区 间 [0, MAX] 内 ， 通 过 有 限 个 采样 点 模拟 一 个 连续 的 曲线 。 比 如 

在 以 下 程序 中 每 隔 SAMPLE_ITERVAL 对 sin 函 数 进行 一 次 采样 ， 采 样 得 

oa 。 以 下 程序 为 预测 离散 化 之 后 
Jsin EAB ° 


# -*- coding: utf-8 -*- 


import numpy as np 


import tensorflow as tf 


# 加 载 matpLIotIib 工 具 包 ， 使 用 该 工具 可 以 对 预测 的 Sin 函数 曲线 进行 绘图 。 
import matplotlib as mpl 
mpl.use('Agg' ) 


from matplotlib import pyplot as plt 


learn = tf.contrib.learn 


HIDDEN SIZE = 30 # LSTM 中 隐藏 节 
点 的 个 数 。 


NUM_LAYERS = 2 # LSTM 的 层 数 。 


TIMESTEPS = 10 # 循环 神经 网 络 
的 截断 长 度 。 

TRAINING STEPS = 10000 # 训练 轮 数 。 

BATCH_SIZE = 32 # batch 大 小 。 

TRAINING_EXAMPLES = 10000 # 训练 数据 个 数 。 

TESTING_EXAMPLES = 1000 # 测试 数据 个 
R o 

SAMPLE_GAP = 0.01 # 采样 间隔 。 


def generate_data(seq): 


x 
lI 


[] 


[] 


< 
I 


# 序列 的 第 i 项 和 后 面 的 TIMESTEPS-1 项 合 在 一 起 作为 输入 ; 第 i + TIMESTEPS 
项 作为 输 


# 出 。 即 用 sin 函 数 前 面 的 TIMESTEPS 个 点 的 信息 ， 预 测 第 i + TIMESTEPS* 4 


的 函数 值 。 


for i in range(len(seq) - TIMESTEPS - 1): 
X.append([seq[i: i + TIMESTEPS]]) 
y.append([seq[i + TIMESTEPS]]) 


return np.array(X, dtype=np.float32), np.array(y, dtype=np.f 


loat32) 


def lstm model(X, y): 
# 使 用 多 层 的 lstm 结 构 。 
lstm cell = tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE) 


cell = tf.nn.rnn cell.MultiRNNCell([lstm cell] * NUM_LAYERS) 


x_ = tf.unpack(X, axis=1) ‘ei 


# 使 用 TensorFlow 接 口 将 多 层 的 LSTM 结 构 连接 成 RNN 网 络 并 计算 其 前 向 传播 结 


output, _ = tf.nn.rnn(cell, x_, dtype=tf.float32) 


# 在 本 问题 中 只 关注 最 后 一 个 时 刻 的 输出 结果 ， 该 结果 为 下 一 时 刻 的 预测 值 。 


output = output[-1] 


# 对 LSTM 网 络 的 输出 再 做 加 一 层 全 链接 层 并 计算 损失 。 注 意 这 里 默认 的 损失 为 平 
均 


# 平方 差 损失 函数 。 


prediction, loss = learn.models.linear_regression(output, y) 


# 创建 模型 优化 器 并 得 到 优化 步骤 。 
train_op = tf.contrib.layers.optimize_loss( 
loss, tf.contrib.framework.get_global_step(), 


optimizer="Adagrad", learning_rate=0.1) 


return prediction, loss, train_op 


# 建立 深层 循环 网 络 模型 。 


regressor = learn.Estimator(model_fn=lstm_model) 


# 用 正弦 函数 生成 训练 和 测试 数据 集合 。 


# numpy.1Linspace 函 数 可 以 创建 一 个 等 差 序 列 的 数组 ， 它 常用 的 参数 有 三 个 参 
数 ， 第 一 个 参数 


# 表示 起 始 值 ， 第 二 个 参数 表示 终止 值 ， 第 三 个 参数 表示 数列 的 长 度 。 例 如 ， 


linespace(1, 10,10) 


# 产生 的 数组 是 arrray([1, 2,3,4,5,6,7,8,9,10])。 
test_start = TRAINING_EXAMPLES * SAMPLE_GAP 


test_end = (TRAINING_EXAMPLES + TESTING EXAMPLES) * SAMPLE_G 
AP 


train_X, train_y = generate_data(np.sin(np.linspace( 
©, test_start, TRAINING_EXAMPLES, dtype=np.float32) ) ) 
test_X, test_y = generate_data(np.sin(np.linspace( 


test_start, test_end, TESTING_EXAMPLES, dtype=np.float3z2) ) ) 


# 调用 fit 函 数 训练 模型 。 


regressor.fit(train_X, train_y, batch_size=BATCH_SIZE, 


stepS=TRAINING_STEPS) 


# 使 用 训练 好 的 模型 对 测试 数据 进行 预测 。 


predicted = [[pred] for pred in regressor.predict(test_X)] 


# 计算 rmse 作 为 评价 指标 。 


rmse = np.sqrt(((predicted - test_y) ** 2).mean(axis=0) ) 


print ("Mean Square Error is: %f" % rmse[0]) 


运行 以 上 程序 可 以 得 到 输出 : {22 
Mean Square Error is: 0.002183 
从 输出 可 以 看 出 通过 循环 神经 网 络 可 以 非常 精确 的 预测 正弦 函数 sin 的 取 值 。 


# 对 预测 的 sin 函数 曲线 进行 绘图 ， 并 存储 到 运行 目录 下 的 sin.png 


fig = plt.figure() 
plot_predicted = plt.plot(predicted, label='predicted' ) 
plot_test = plt.plot(test_y, label='real_sin' ) 


plt.legend([plot_predicted, plot_test], ['predicted', 'real_ 
sin']) 


# 得 到 的 结果 如 图 8-21 所 示 。 


fig.savefig('sin.png') 


从 图 8-13 中 可 以 看 出 ， 预 测 得 到 的 结果 和 真实 的 sin 画 数 儿 乎 是 重合 
的 。 也 束 旦 说 通过 循环 神经 网 络 可 以 非常 好 地 预测 sn 函数 的 取 值 。 


ste 


predicted 
— real sin 
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图 8-13 ”通过 循环 神经 网 络 预测 sin 函 数 得 到 的 结果 
小 结 


本 章 详细 介绍 了 循环 神经 网 络 的 整体 架构 ， 并 介绍 了 循环 神经 网 络 中 
最 常用 的 LSTM 结 构 。 在 本 章 中 也 给 出 了 两 个 具体 的 样 例 来 介绍 如 何 将 
循环 神经 网 络 应 用 于 实际 问题 之 中 。 首 先 ， 在 本 章 的 8.1 和 中 讲解 了 什 
么 是 循环 神经 网 络 。 在 这 一 世 中 介绍 了 循环 神经 网 络 的 整体 结构 ， 并 
给 出 了 一 个 具体 的 样 例 来 说 明 循环 神经 网 络 是 如 何 工 作 的 。 接 着 ， 在 
8.2 世 中 介绍 循环 神经 网 络 中 使 用 的 最 为 广泛 的 LSTM 结 构 ， 大 致 介绍 
了 LSTM 结 构 的 主要 成 分 ， 并 给 出 了 有 具体 的 TensorFlow 样 例 程 序 来 实现 
使 用 了 LSTM 结 构 的 循环 神经 网 络 。 然 后 ， 在 8.3 下 中 介绍 了 LSTM 结 构 
的 一 些 主流 变种 。 最 后 ， 在 8.4 广 中 给 出 了 使 用 循环 神经 网 络 解决 具体 
问题 的 两 个 案例 。 在 8.4.1 小 闻 中 介绍 了 如 何 使 用 循环 神经 网 络 实现 目 
然 语言 模型 ， 在 8.4.2 小 节 介 绍 了 通过 TensorFlow 的 高 层 封装 TFLearmn 实 
现时 序 预 测 问 题 。 


(1) 本 广内 容 部 分 参考 了 资料 http://colah.github.io/posts/2015-08-Understanding-LSTMs/。 


(2) ÆJ: Sathasivam S. Logic Learning in Hopfield Networks [J]. Modern Applied Science, 2009. 


(3)_ 本 章 关 于 循环 神经 网 络 的 介绍 图 片 部 分 来 自 资料 http://colah.github.io/posts/2015-08- 
Understanding- LSTMs/ ° 


(4) RF Sa] Ie] A fe ST 2G BY Be SET e 


(5)_ 关于 单词 向 量 更 加 详细 的 介绍 可 以 参考 论文 : Mikolov T, Sutskever I, Chen K, et al. 
Distributed Representations of Words and Phrases and their Compositionality [J]. Advances in Neural 
Information Processing Systems, 2013, 26:3111-3119. 


(6)_ 图 中 中 间 标 有 tanh 的 小 方 框 表 示 一 个 使 用 了 tanh 作 为 激活 函数 的 全 连接 神经 网 络 。 


D. 也 有 资料 中 将 会 将 上 一 时 刻 状态 对 应 的 权重 和 当前 时 刻 输入 对 应 的 权重 特意 分 开 ， 但 它们 
的 实质 是 一 样 的 。 本 节 展 示 样 例 中 为 了 方便 显示 ， 采 用 了 向 量 拼接 的 方式 ， 在 本 节 的 代码 中 为 
了 方便 代码 编写 ， 采 用 了 分 开 的 方式 。 


mf 


(8)_ 参见 : Gustavsson A, Magnuson A, Blomberg B, et al. On the difficulty of training Recurrent 
Neural Networks [J]. Computer Science, 2013. 


(9)_ Sepp Hochreiter, Jiirgen Schmidhuber. Long short-term memory [J]. Neural Computation. 9 (8): 
1735~1780,1997. 


(10)_ Schuster M, Paliwal K K. Bidirectional recurrent neural networks [J]. IEEE Transactions on 


Signal Processing, 1997. 


(11)_ Zaremba W, Sutskever I, Vinyals O. Recurrent Neural Network Regularization [J]. Eprint Arxiv, 
2014. 


(12) .注意 这 里 定义 的 实际 上 是 节点 被 保留 的 概率 。 如 果 给 出 的 数字 为 0.9， 那 么 只 有 109% 的 节 
点 会 被 dropout ° 


(13)_ Bttcher S, Clarke C L A, Cormack G V. Information Retrieval: Implementing and Evaluating 
Search Engines [M]. The MIT Press, 2016. 


(14) 关于 更 多 关于 使 用 TensorFlow 实 现 单 词 向 量 的 资料 可 以 参考 TensorFlow 官 方 网 站 : 


https://www. tensorflow.org/tutorials/word2vec/ ° 


(15) 在 TensorFlow 0.9.0 下 运行 会 提 示 :  “WARNING:tensorflow: 
<tensorflow.python.ops.rnn_cell.BasicLSTMCell object at 0x7fcb4f3ae150>: Using a concatenated 


state is slower and will soon be deprecated. Use state_is_tuple=True.” 这 不 会 影 响 运 行 。 但 是 
TensorFlow0.9.0 对 state_jis_tupe=True 不 文 持 ， 所 以 书 中 没有 设置 ， 在 TensorFlow 更 高 的 版 本 中 可 
以 将 state_is_tuple 参 数 设置 为 True ° 


(16)_ Av) HB a A ASE A: http://mourafiq.com/2016/05/15/predicting-sequences-using-mn-in- 


tensorflow.html 


(17)_TFLeam 又 名 skflow， 它 们 是 同一 套 系统 。 


(18) 更 多 关于 iris 数 据 集 的 信息 可 以 参考 : http://archive.ics.uci.edu/ml/datasets/Iris ° 


(19) 此 处 要 求 TensorFlow0.10.0 及 以 上 版 本 。 


(20)_ 运行 该 程序 可 能 会 因为 TFLearn 的 版 本 而 得 到 一 些 warning,， 但 这 些 warning 不 会 影响 程序 
的 正常 运行 。 


第 9 章 ”TensorBoard 可 视 化 


前 面 的 章节 已 经 介绍 了 如 何 使 用 TensorFlow 实 现 常用 的 神经 网 络 结构 。 
在 将 这 些 神经 网 络 用 于 实际 问题 之 前 ， 需 要 先 优 化 神经 网 络 中 的 参 
数 。 这 就 是 训练 神经 网 络 的 过 程 。 训 练 神经 网 络 十 分 复杂 ， 有 了 时 需 
儿 天 甚至 几 周 的 时 间 。 为 了 更 好 的 管理 、 调 斌 和 优化 神经 网 络 的 训练 
过 程 ，TensorFlow 提 供 了 一 个 可 视 化 工具 TensorBoard ° TensorBoard P] 
以 有 效 地 展示 TensorFlow 在 运行 过 程 中 的 计算 图 、 各 种 指标 随 着 时 间 的 
变化 趋势 以 及 训练 中 使 用 到 的 图 像 等 信息 。 


本 章 将 详细 介绍 TensorBoard 的 使 用 方法 。 首 先 ，9.1 方 将 介绍 
TensorBoard 的 基础 知识 ， 并 通过 TensorBoard 来 可 视 化 一 个 简单 的 
TensorFlow 样 例 程序 。 在 这 一 节 中 将 介绍 如 何 启 动 TensorBoard， 并 大 
致 讲解 TensorBoard 提 供 的 几 类 可 视 化 信息 。 然 后 ，9.2 市 将 介绍 通过 
TensorBoard##! HJ TensorFlowit tE RAI P ILER ° TensorFlowt} tR Al 
保存 了 TensorFlow 程 序 计算 过 程 的 所 有 信息 。 因 为 TensorFlow 计 算 图 中 
的 信息 含量 较 多 ， 所 以 TensorBoard 设 计 了 一 套 交 互 过 程 来 更 加 清晰 地 
呈现 这 些 信 息 。 在 这 一 市 中 将 详 细 介 绍 TensorBoard 的 交互 流程 以 及 可 
钢化 结果 中 提供 的 信息 。 最 后 ，9.3 太 将 详细 讲解 如 何 使 用 TensorBoard 


WY VIBE ET ee, AR OO (Api at TensorFlow ti x€ ia 22 FY MUCH tS 
标 。 在 这 一 节 中 给 出 了 完整 的 样 例 程序 介绍 如 何 得 到 可 视 化 结 


9.1 TensorBoard 简 介 


TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 它 可 以 通过 TensorFlow 程 序 运 
行 过 程 中 输出 的 日 志文 件 可 视 化 TensorFlow 程 序 的 运行 状态 。 
TensorBoard 和 TensorFlow 程 序 跑 在 不 同 的 进程 中 ，TensorBoard 会 自动 
读 取 最 新 的 TensorFlow 日 志文 件 ， 并 呈现 当前 TensorFlow 程 序 运 行 的 最 
新 状态 。 以 下 代码 展示 了 一 个 简单 的 TensorFlow 程 序 ， 在 这 个 程序 中 完 
成 了 TensorBoard 日 志 输 出 的 功能 。 


import tensorflow as tf 


# 定义 一 个 简单 的 计算 图 ， 实 现 向 量 加 法 的 操作 。 
input1 = tf.constant([1.0, 2.0, 3.0], name="input1") 
input2 = tf.Variable(tf.random_uniform([3]), name="input2") 


output = tf.add n([input1i, input2], name="add") 


# 生成 一 个 写 日 志 的 writer， 并 将 当前 的 TensorFlow 计 算 图 写 入 日 志 。 
TensorFlow 提 供 了 多 


# 种 写 日 志文 件 的 API， 在 9.3 节 中 将 详细 介绍 。 


writer = tf.train.Summarywriter("/path/to/log", tf.get_defau 
1t_graph() ) 


writer.close() 


以 上 程序 输出 了 TensorFlow 计 算 图 的 信息 ， 所 以 运行 TensorBoard 时 , 
可 以 看 到 这 个 回 量 相 加 程序 计算 图 可 视 化 之 后 的 结果 。TensorBoard 不 
需要 额外 的 安装 过 程 ， 在 TensorFlow 安 装 完成 时 ，TensorBoard 会 被 自 
动 安装 。 运 行 下 面 的 命令 可 以 启动 TensorBoard ° 


# 运行 TensorBoard， 并 将 日 志 的 地 址 指向 上 面 程序 日 志 输 出 的 地 址 。 


tensorboard --logdir=/path/to/log 


运行 上 面 的 命令 会 启动 一 个 服务 ， 这 个 服务 的 端口 默认 为 6006 呈 。 通 过 
浏览 器 打开 localhost:6006， 可 以 看 到 图 9-1 所 示 的 界面 。 在 界面 的 上 
方 ， 可 以 看 到 有 五 栏 ， 分 别 是 EVENTS、IMAGES、AUDIO、GRAPHS 
和 HISTOGRAMS 。TensorBoard 中 每 一 栏 都 对 应 了 一 类 信息 的 可 视 化 结 
果 ， 在 下 面 的 章节 中 将 具体 介绍 每 一 栏 的 功能 。 如 图 9-1 所 示 ， 打 开 
TensorBoard 界 面 会 默认 进入 EVENTS 栏 。 因 为 上 面 的 程序 没有 输出 任 
何 由 EVENTS 栏 可 视 化 的 信息 ， 所 以 这 个 界面 显示 的 是 “No scalar data 
was found.”( 没 有 发 现 标量 数据 ) 。 点 击 进 入 GRAPHS 栏 ， 可 以 看 到 上 
面 程 序 TensorFlow 计 算 图 的 可 视 化 结果 。 图 9-2 展 示 了 这 个 TensorFlow 计 
算 图 的 可 视 化 结果 。9.2 节 将 详细 介绍 如 何 理 解 TensorFlow 计 算 图 的 可 
视 化 结果 中 提供 的 信息 。 
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图 9-2 ”使 用 TensorBoard 可 视 化 向 量 相 加 程序 TensorFlow 计 算 图 的 结 细 


9.2 ”TensorFlow 计 算 图 可 视 化 


在 图 9-2 中 给 出 了 一 个 TensorFlow 计 算 图 的 可 视 化 效果 图 。 人 然而， 从 
TensorBoard 可 视 化 结果 中 可 以 获取 的 信息 远 不 止 图 9-2 中 所 示 的 这 些 。 
这 一 方 将 详细 介绍 如 何 更 好 地 利用 TensorFlow 计 算 图 的 可 视 化 结果 。 
首先 ，9.2.1 小 节 将 介绍 通过 TensorFlow 节 点 的 命名 空间 整理 
TensorBoard 可视化 得 到 的 TensorFlow 计 算 图 。 在 第 3 关中 介绍 过 ， 
TensorFlow 会 将 所 有 的 计算 以 图 的 形式 组 织 起 来 。TensorBoard 可 视 化 
得 到 的 图 并 不 仪 是 将 TensorFlow 计 算 图 中 的 节点 和 边 直 接 可 视 化 ， 它 
会 根据 每 个 TensorFlow 计 算 节 点 的 命名 空间 来 整理 可 视 化 得 到 的 效果 
， 使 得 神经 网 络 的 整体 结构 不 会 被 过 多 的 细 广 所 淹没 。 除 了 显示 
TensorFlow 计 算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计 算 市 
点 上 的 其 他 信息 。 然 后 ，9.2.2 小 节 将 详细 介绍 如 何 从 可 视 化 结果 中 获 
取 TensorFlow 计 算 图 中 的 这 些 信息 。 


9.2.1 命名 空间 与 TensorBoard 图 上 节 


4 


在 9.1 市 给 出 的 样 例 程序 中 只 定义 了 一 个 加 法 操作 ， 然 而 从 图 9-2 中 可 
以 看 到 ， 将 这 个 TensorFlow 计 算 图 可 视 化 得 到 的 效果 图 上 却 有 八 个 市 
点 。 除 去 声明 标量 、 常 量 所 产生 的 节点 ， 变 量 的 初始 化 过 程 也 会 产生 
源 的 计算 和 点 。 更 重要 的 是 ， 这 些 和 点 的 排列 可 能 会 比较 乱 ， 这 导致 
主要 的 计算 节点 可 能 被 埋没 在 大 量 信息 量 不 大 的 节点 中 ， 使 得 可 视 化 
得 到 的 效果 图 很 难 理 解 。 比 如 在 图 9-2 中 ，TensorFlow 中 定义 的 加 法 运 
算 所 代表 的 节点 只 显示 在 了 右 侧 一 个 较 小 的 区 域 ， 基 本 上 被 变量 初始 
化 的 操作 所 埋没 。 可 以 想象 ， 一 个 复杂 的 神经 网 络 模型 所 对 应 的 
TensorFlow 计 算 图 会 比 9.1 廊 中 简单 的 癌 量 加 法 样 例 程序 的 计算 图 复杂 
很 多 ， 那 么 没有 经 过 整理 得 到 的 可 视 化 效果 图 并 不 能 帮助 很 好 地 理解 
神经 网 络 模 型 的 结构 。 


为 了 更 好 地 组 织 可 视 化 效果 图 中 的 计算 和 点 ，TensorBoard 文 持 通过 
TensorFlow 命 名 空间 来 整理 可 视 化 效果 图 上 的 节点 。 在 TensorBoard 的 
默认 视图 中 ，TensorFlow 计 算 图 中 同一 个 命名 空间 下 的 所 有 和 点 会 被 
缩 略 成 一 个 节点 ， 只 有 顶层 命名 空间 中 的 节点 才 会 被 显示 在 
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variable _scope kğ, tf. name_scope 图 数 也 提供 了 命名 空间 管理 的 功 
。 这 两 个 函数 在 大 部 分 情况 下 是 等 价 的 ， 唯 一 的 区 别 是 在 使 用 

eis 数 时 。 以 下 代码 简单 地 说 明了 这 两 个 函数 的 区 别 。 


import tensorflow as tf 


with tf.variable_scope("foo"): 


# 在 命名 空间 foo 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “foo/bar”。 
a = tf.get_variable("bar", [1]) 


print a.name # 输出 : foo/bar:0 


with tf.variable_scope("bar"): 


# 在 命名 空间 bar 下 获取 变量 bar”， 于 是 得 到 的 变量 名 称 为 “bar /bar”。 此 时 


Kt 
是 


# “bar/bar” 和 变量 “foo/bar” 并 不 冲突 ， 于 是 可 以 正常 运行 。 
b = tf.get_variable("bar", [1]) 


print b.name # 输出 : bar/bar:0 


with tf.name_scope("a"): 


名 称 


# 使 用 tf.Variable 函 数 生 成 变量 会 受 tf.name_scope 影 响 ， 于 是 这 个 变量 的 


# 为 “a/Variable”。 
a = tf.Variable([1]) 


print a.name # 输出 : 


a/Variable:0 


you 


# tf.get_variableWa fh Xtf ,name_scope 函 数 的 影响 ， 


# 于 是 变量 并 不 在 a 这 个 命名 空间 中 。 


a = tf.get_variable("b", [1]) 


print a.name # 输出 : b:0 


with tf.name_scope("b"): 


# 因为 tf.get_ Variable 不 受 tf.name scope 影响， 所 以 这 里 将 试图 获取 名 


# 为 “ay 的 变量 。 然 而 这 个 变量 已 经 被 声明 了 ， 于 是 这 里 会 报 重复 声明 的 错误 : 


# ValueError: Variable bar already exists, disallowed. Did 
mean 


# to set reuse=True in VarScope? Originally defined at: 


tf.get_variable("b", [1]) 


通过 对 命名 空间 管理 ， 可 以 改进 9.1 节 中 向 量 相 加 的 样 例 代 码 ， 使 得 可 
视 化 得 到 的 效 采 图 更 加 清晰 。 以 下 代码 展示 了 改进 的 方法 。 


# 将 输入 定义 放 入 各 自 的 命名 空间 中 ， 从 而 使 得 TensorBoard 可 以 根据 命名 空 
间 来 整理 可 视 化 效 


# 果 图 上 的 节点 。 

with tf.name_scope("input1"): 

input1 = tf.constant([1.0, 2.0, 3.0], name="input1") 

with ctf.name_scope("input2"): 

input2 = tf.Variable(tf.random_uniform([3]), name="input2") 


output = tf.add_n([input1, input2], name="add") 


writer = tf.train.SummaryWriter("/path/to/log", tf.get_defa 
ult_graph() ) 


writer.close() 


图 9-3 中 显示 了 改进 后 的 可 视 化 效果 图 。 从 图 中 可 以 看 到 ， 图 9-2 中 很 
多 的 和 点 都 被 缩 略 到 了 图 9-3 中 的 input2 节 点 。 这 样 TensorFlow 程 序 中 
定义 的 加 法 运算 被 清晰 地 展示 了 出 来 。 需 要 查看 input2 市 点 中 具体 包 
含 了 哪些 运算 时 ， 可 以 将 鼠标 移动 到 input2 节 点 ， 并 点 开 右 上 和 角 的 加 
号 “+”&@。 图 9-4 显 示 了 展开 input2 广 点 之 后 的 视图 。 
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图 9-3 ”改进 后 向 量 加 法 程序 TensorFlow 计 算 图 的 可 视 化 效果 图 
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图 9-4 ”展开 input2 节 点 的 可 视 化 效果 图 


在 input2 的 展开 图 中 可 以 看 到 图 9-2 中 数据 初始 化 相关 的 操作 都 被 整理 
到 了 一 起 。 下 面 将 给 出 一 个 样 例 程序 来 展示 如 何 很 好 地 可 视 化 一 个 真 
实 的 神经 网 络 结构 图 。 本 节 将 继续 采用 5.5 广 中 给 出 的 架构 ， 以 下 代码 
给 出 了 改造 后 的 mnist_train.py 程 序 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data 


# mnist inference 中 定义 的 常量 和 前 向 传播 的 函数 不 需要 改变 ， 因 为 前 向 传 
播 已 经 通过 


# tf.Variable scope 实现 了 计算 节点 按照 网 络 结构 的 划分 。 


import mnist_inference 


INPUT_NODE = 784 


OUTPUT_NODE 


10 


LAYER1_NODE 


500 


def train(mnist): 


# 将 处 理 输入 数据 的 计算 都 放 在 名 字 为 “input” 的 命名 空间 下 。 


with tf.name_scope('input'): 
x = tf.placeholder ( 


tf.float32, [None, mnist_inference.INPUT_NODE], nam 
e='xX-input' ) 


y_ = tf.placeholder ( 
tf.float32, [None, mnist_inference.OUTPUT_NODE], 


name='y-cinput ' ) 


regularizer = tf.contrib.layers.12_regularizer (REGULARAZ 
TION_RATE) 


y = mnist_inference.inference(x, regularizer) 


global_step = tf.Variable(0, trainable=False) 


# 将 处 理 滑动 平均 相关 的 计算 都 放 在 名 为 noving_average 的 命名 空间 下 。 


with tf.name_scope("moving_average"): 


variable averages = tf.train.ExponentialMovingAverage( 


MOVING_AVERAGE_DECAY, global_step) 


variables_averages_op = variable_averages.apply/( 


tf.trainable_variables()) 


# 将 计算 损失 画 数 相关 的 计算 都 放 在 名 为 ]oss_function 的 命名 空间 下 。 
with tf.name_scope("loss_function"): 


cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_ 
logits( 


y, tf.argmax(y_, 1)) 
cross_entropy_mean = tf.reduce_mean(cross_entropy) 


loss = cross_entropy_mean + tf.add_n(tf.get_collection(' 
losses')) 


# 将 定义 学 习 率 、 优 化 方法 以 及 每 一 轮训 练 需要 执行 的 操作 都 放 在 名 字 


A“train_step” 
# 的 命名 空间 下 。 


with tf.name_scope("train_step"): 


learning_rate = tf.train.exponential_decay( 
LEARNING_RATE_BASE, 
global_step, 
mnist.train.num_examples / BATCH_SIZE, 
LEARNING_RATE_DECAY, 
staircase=True) 


train_step = tf.train.GradientDescentOptimizer (learning 
_rate)\ 


.minimize(loss, global_step=global_st 
ep) 


with tf.control_dependencies([train_step, variables_ave 
rages_op]): 


train_op = tf.no_op(name='train' ) 


# 使 用 和 5 .5 节 中 一 样 的 方式 训练 神经 网 络 。 


# 将 当前 的 计算 图 输出 到 TensorBoard 日 志文 件 。 


writer = tf.train.SummaryWriter("/path/to/log", tf.get_defa 
ult_graph() ) 


writer.close() 


def main(argv=None) : 


mnist = input_data.read_data_sets("/tmp/data", one_hot=True 


train(mnist ) 


ip fine. == man 


tf.app.run() 


相 比 5.5 广 中 给 出 的 mnist_train.py 程 序 ， 上 面 程序 最 大 的 改变 就 是 将 完 
成 类 似 功 能 的 计算 放 到 了 由 tf.name_scope 范 数 生成 的 上 下 文 管理 妖 
中 。 这 样 TensorBoard 可 以 将 这 些 和 点 有 歼 地 合并 ， 从 而 突出 神经 网 络 
的 整体 结构 。 因 为 在 mnist_inferenece.py 程 序 中 已 经 使 用 了 
tf.variable_scope 来 管理 变量 的 命名 空间 ， 所 以 这 里 不 需要 再 做 调整 。 
了 新 的 MNIST 程 序 的 TensorFlow 计 算 图 可 视 化 得 到 的 效果 
: 
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图 9-5 ”改进 后 的 MNIST 样 例 程序 TensorFlow 计 算 图 可 视 化 效果 图 


从 图 9-5 中 可 以 看 到 ，TensorBoard 可 视 化 效果 图 很 好 的 展示 了 整个 神经 
网 络 的 结构 。 在 图 9-5 中 ，inputT 点 代表 了 训练 神经 网 络 需 要 的 输入 数 
据 ， 这 些 输 入 数据 会 提供 给 神经 网 络 的 第 一 层 layer1。 然 后 神经 网 络 第 
一 层 layerl1 的 结果 会 被 传 到 第 二 层 layer2 ， 进 过 layer2 的 计算 得 到 前 回 传 
播 的 结果 。loss_function 世 点 表示 计算 损失 函数 的 过 程 ， 这 个 过 程 既 依 
ROP BMT HG RRR Tt A 〈layer2 到 loss_function 的 边 ) , X 
依赖 于 每 一 层 中 所 定义 的 变量 来 计算 L2 正 则 化 损失 〈layer1 和 layer2 到 
loss_function 的 边 ) 。loss_function 的 计算 结果 会 提供 给 神经 网 络 的 优 
化 过 程 ， 也 就 是 图 中 train_step 所 代表 的 和 点 。 绽 上 所 述 ， 通 过 
ee 的 效果 图 可 以 对 整个 神经 网 络 的 网 络 结构 有 一 
SKE T HF o 


在 图 9-5 中 可 以 发 现 节 点 之 间 有 两 种 不 同 的 边 。 一 种 边 是 通过 实 线 表示 
的 ， 这 种 边 刻 画 了 数据 传输 ， 边 上 篆 头 方 同 表 达 了 数据 传输 的 方 同 。 
比如 layer1 和 layer2 之 间 的 边 表 示 了 layer1l 的 输出 将 会 作为 layer2 的 输 
入 。 有 些 边 上 的 箭头 是 双 同 的 ， 比 如 市 点 Variable 和 train_step 之 间 的 
边 。 这 表明 train_step 会 修改 Variable 的 状态 ， 在 这 里 也 就 是 表明 训练 过 
程 会 修改 记录 训练 迭代 轮 数 的 变量 名 。 


TensorBoard 可 视 化 效果 图 的 边 上 还 标注 了 张 量 的 维度 信息 。 图 9-6 放 大 
了 可 视 化 得 到 的 效果 图 ， 从 图 中 可 以 看 出 ， 节 点 input 和 ]ayerl 之 间 传 
输 的 张 量 的 维度 为 100x784。 这 说 明了 训练 时 提供 的 batch 大 小 为 100， 


AET RA P7784 ° SS ZI KS IPA, a 
视 化 效果 图 上 将 只 显示 张 量 的 个 数 。 效 果 图 上 边 的 粗细 表示 的 是 两 个 
节点 之 间 传 输 的 标量 维度 的 总 大 小 ， 而 不 是 传输 的 标量 个 数 。 比 如 
layer2 和 1loss_function 之 间 虽 然 传 输 了 两 个 张 量 ， 但 其 维度 都 比较 小 ， 
所 以 这 条 边 比 layer1 和 layer2 之 间 的 边 还 要 细 。 
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图 9-6 ”TensorBoard 可 视 化 效果 图 中 边 上 信息 


TensorBoard 可 视 化 效果 图 上 另外 一 种 边 是 通过 虚线 表示 的 ， 比 如 图 9-5 
中 所 示 的 moving_average 和 train_step 之 间 的 边 。 虚 边 表达 了 计算 之 间 
的 依赖 关系 ， 比 如 在 程序 中 ， 通 过 tf.control_dependencies 函 数 指定 了 
更 新 参数 请 动 平 均值 的 操作 和 通过 反 辐 传播 更 新 变量 的 操作 需要 同时 
进行 ， 于 是 moving_average 与 train_step 之 间 存 在 一 条 虚 边 。 


除了 手动 的 通过 TensorFlow 中 的 命名 空间 来 调整 TensorBoard 的 可 视 化 
效果 图 ，TensorBoard 也 会 智能 地 调整 可 视 化 效果 图 上 的 节点 。 
TensorFlow 中 部 分 计算 和 点 会 有 比较 多 的 依赖 关系 ， 如 果 全 部 画 在 一 
张 图 上 会 使 可 视 化 得 到 的 将 果 图 非常 拥挤 。 于 是 TensorBoard 将 
TensorFlow 计 算 图 分 成 了 主 图 (Main Graph) 和 辅助 图 (Auxiliary 
nodes) 两 个 部 分 来 呈现 。 在 图 9-5 中 ， 左 侧 展示 的 是 计算 图 的 主要 部 
T, CREER; 右 侧 展示 的 是 一 些 单独 列 出 来 的 和 点 ， 也 束 是 辅助 
° TensorBoard 会 目 动 将 连接 比较 多 的 和 点 放 在 辅助 图 中 ， 使 得 主 图 
的 结构 更 加 清晰 。 


除了 目 动 的 方式 ，TensorBoard 也 文 持 手工 的 方式 来 调整 可 祝 化 结 末 。 
如 图 9-7 所 示 ， 石 键 单 击 可 视 化 效果 图 上 的 市 点 会 弹出 一 个 选项 ， 这 个 
选项 可 以 将 节点 加 入 主 图 或 者 从 主 图 中 删除 。 左 键 选择 一 个 市 点 并 所 
击 信息 框 下 部 的 选项 也 可 以 完成 类 似 的 功能 。 图 9-8 展 示 了 将 train_step 
节点 从 主 图 中 移出 后 的 效果 ， 图 9-9 展 示 了 将 Variable 节 点 移入 主 图 后 
的 效果 。 注 意 TensorBoard 不 会 保存 用 户 对 计算 图 可 视 化 结 末 的 手工 修 
改 ， 页 面 刷 狐 之 后 计算 图 可 视 化 结 末 义 会 回 到 最 初 的 样子 。 
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(b) 手工 将 TensorFlow 计 算 图 可 视 化 效果 图 中 节点 加 入 主 图 


图 9-7 手工 将 TensorFlow 计 算 图 可 视 化 效果 图 中 节点 加 入 /移出 主 图 
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图 9-9 Variables i AEA aR A 


9.2.2 ”节点 信息 


除了 展示 TensorFlow 计 算 图 的 结构 ，TensorBoard 还 可 以 展示 
TensorFlow 计 算 图 上 每 个 习 点 的 基本 信息 以 及 运行 时 消耗 的 时 间 和 空 
上 间 。 本 小 广 将 进一步 讲解 如 何 通 过 TensorBoard 展 现 TensorFlow 计 算 图 
节点 上 的 这 些 信息 。TensorFlow 计 算 节 点 的 运行 时 间 都 是 非常 有 用 的 
言 轧 ， 它 可 以 帮助 更 加 有 针对 性 地 优化 TensorFlow 程 序 ， 使 得 整个 程 
序 的 运行 速度 更 快 。 使 用 TensorBoard 可 以 非常 直观 地 展现 所 有 
TensorFlow 计 算 世 点 在 某 一 次 运行 时 所 消耗 的 时 间 和 内 存 。 将 以 下 代 
码 加 入 9.2.1 小 节 中 修改 后 的 mnist_train.py 神 经 网 络 训练 部 分 ， 束 可 以 


将 不 同 适 代 轮 数 时 每 一 个 TensorFlow 计 算 节 点 的 运行 时 间 和 消耗 的 内 
存 写 入 TensorBoard 的 日 志文 件 中 。 


with tf.Session() as sess: 


tf.initialize_all_variables().run() 


for i in range(TRAINING_STEPS): 


xs, yS = mnist.train.next_batch(BATCH_SIZE) 


# 每 1099 轮 记录 一 次 运行 状态 。 


if i % 1000 == 


# 配置 运行 时 需要 记录 的 信息 。 
run_options = tf.RunOptions( 


trace_level=tf.RunOptions.FULL_TRACE) 


# 运行 时 记录 运行 信息 的 proto。 


run_metadata = tf.RunMetadata() 


# 将 配置 信息 和 记录 运行 信息 的 proto 传 入 运行 的 过 程 ， 从 而 记 
FIST BE 


# 点 的 时 间 、 空 间 开 销 信息 。 


_, loss_value, step = sess.run( 


[train_op, loss, global_step], feed_dict= 
{x: XS, y_: ys}, 


options=run_options, run_metadata=run_metad 
ata) 


# 将 市 点 在 运行 时 的 信息 写 入 日 志文 件 。 


train_writer.add_run_metadata(run_metadata, 'st 
ep%03d' % i) 


print("After %d training step(s), loss on train 
ing batch " 


"is %g." % (step, loss_value) ) 
else: 
_, loss_value, step = sess.run( 


[train_op, loss, global_step], feed_dict= 
EXS /SH 


运行 以 上 程序 ， 并 使 用 这 个 程序 输出 的 日 志 启 动 TensorBoard， 就 可 以 
可 视 化 每 个 TensorFlow 计 算 节 点 在 某 一 次 运行 时 所 消耗 的 时 间 和 空间 
了 。 进 入 GRAPHS 栏 后 ， 需 要 先 选择 一 次 运行 来 查看 。 如 网 9-10 (a) 
Ara, SGA MM Session runs 选 项 会 出 现 一 个 下 拉 单 ， 在 这 个 下 
拉 单 中 会 出 现 所 有 通过 train_writeradd_run_metadata 函 数 记 录 的 运行 数 
据 。 如 图 9-10 (b) 所 示 ， 选 择 一 次 运行 后 ，TensorBoard 左 侧 的 Color 
栏 中 将 会 新 出 现 Compute time 和 Memory 这 两 个 选项 。 
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项 


图 9-10 ”TensorBoard 运 行 记录 选择 界面 


在 Color 栏 中 选择 Compute time 可 以 看 到 在 这 次 运行 中 每 个 TensorFlow 
计算 节点 的 运行 时 间 。 类 似 的， 选择 Memory 可 以 看 到 这 次 运行 中 每 个 
TensorFlow 计 算 节 点 所 消耗 的 内 存 。 图 9-11 展 示 了 在 第 10000 轮 迭代 
H 上 时， 不 同 TensorFlow 计 算 廊 点 时 间 消 耗 的 可 视 化 效果 图 。 图 中 颜色 越 
深 的 节点 表示 时 间 消 耗 越 大 。 从 图 9-11 中 可 以 看 出 ， 代 表 训 练 神经 网 
络 的 train_step 世 点 消耗 的 时 间 是 最 多 的 。 通 过 对 每 一 个 计算 下 点 消耗 


ASTRA BT el, BY DAR ASH E Zl TensorFlowtt & A EAST BENEN 

这 大 大 方便 了 算法 优化 的 工作 。 在 性 能 调 优 时 ， 一 般 会 选择 迭代 轮 数 
较 大 时 的 数据 (比如 图 9-11 中 第 10000 轮 迭代 时 的 数据 ) 作为 不 同 计算 
Se 空间 消耗 的 标准 ， 因 为 这 样 可 以 减少 TensorFlow 初 始 化 对 性 
能 的 影 


layer1 


图 9-11 ”第 10000 轮 适 代 时 不 同 TensorFlow 计 算 节 点 时 间 消 耗 的 可 视 化 效果 图 


在 TensorBoard 界 面 左 侧 的 Color 栏 中 ， 除 了 Compute time 和 Memory 

还 有 Structure 和 Device 两 个 选项 。 在 图 9-3 到 图 9-9 中 ， 展示 的 可 视 化 效 
果 图 都 是 使 用 默认 的 Structure 选 项 。 在 这 个 视图 中 ， 灰 色 的 节点 表示 
没有 其 他 廊 点 和 它 拥 有 相同 结构 。 如 果 有 两 个 节点 的 结构 相同 ， 那 么 
它们 会 被 涂 上 相同 的 颜色 。 图 9-12 展 示 了 一 个 拥有 相同 结构 节点 的 卷 
积 神经 网 络 可 视 化 得 到 的 效果 图 。 在 图 9-12 中 ， 两 个 卷 积 层 的 结构 是 
一 样 的 ， 所 以 他 们 都 被 涂 上 了 相同 的 颜色 。 最 后 ，Color 栏 还 可 以 选择 
Device 和 选项， 这 个 选项 可 以 根据 TensorFlow 计 算 节 点 运行 的 机 器 给 可 
视 化 效果 图 上 的 节点 染色 。 在 使 用 GPU 时 ， 可 以 通过 这 种 方式 直观 地 
看 到 哪些 计算 节点 被 放 到 了 GPU 上 。 图 9-13 给 出 了 一 个 使 用 了 GPU 的 
TensorFlow 计 算 图 的 可 视 化 结果 。 图 9-13 中 深 灰 色 的 玉 点 表示 对 应 的 
计算 放 在 了 GPU 上 ， 说 灰色 的 站 FRAT BLATT SEE T CPUE o A 
体 如 何 使 用 GPU 将 在 第 10 章 介绍 


图 9-12 有 相同 结构 节点 的 卷 积 神经 网 络 计 算 图 在 Structure 选 项 下 的 可 视 化 效果 图 
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图 9-13 ”使 用 了 GPU 的 TensorFlow 计 算 图 的 可 视 化 结果 


当 点 击 TensorBoard 可 视 化 效果 图 中 的 节点 时 ， 界 面 的 右上 角 会 弹出 一 
个 信息 卡片 显示 这 个 节点 的 基本 信息 。 如 图 9-14 所 示 ， 当 点 击 的 节点 
为 一 个 命名 空间 时 ，TensorBoard 展 示 的 信息 有 这 个 命名 空间 内 所 有 计 
算 节点 的 输入 、 DE 虽然 属性 (Attriubtes) 也 会 展示 
在 卡片 中 ， 但 是 在 代表 命名 空间 的 属性 下 不 会 有 任何 内 容 。 当 Session 
runs 选 择 了 某 一 次 运行 时 e 云 行 
时 所 消耗 的 时 间 和 内 存 等 信息 。 
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图 9-14 ”TensorFlow 命 名 空间 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 
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TensorFlowit A 1 APT VAN fa A KR oc 4ETensorBoard MF, Ò 
的 小 椭圆 对 应 了 TensorFlow 计 算 图 上 的 一 个 计算 节点 ， 而 一 个 矩形 对 
应 了 计算 图 上 的 一 个 命名 空间 。TensorFlow 计 算 节 点 所 对 应 的 信息 卡 
片 中 的 内 容 和 命名 空间 信息 卡片 相似 ， 只 是 TensorBoard 可 以 将 
TensorFlow 计 算 广 点 的 属性 也 展示 出 来 。 例 如 在 图 9-15 中 ， 属 性 柱 下 
a 以 及 运行 这 个 计算 时 
` DZ ° 


Inputs (2) 


Graph 


图 9-15 ”TensorFlow 计 算 节 点 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 


9.3 ”监控 指标 可 视 化 


在 9.2 节 中 着 重 介 绍 了 通过 TensorBoard 的 GRAPHS 栏 可 视 化 TensorFlow 
计算 图 的 结构 以 及 在 计算 图 上 的 信息 。TensorBoard 除 了 可 以 可 视 化 
TensorFlow 的 计算 图 ， 还 可 以 可 视 化 TensorFlow 程 序 运 行 过 程 中 各 种 有 
助 于 了 解 程序 运行 状态 的 监控 指标 。 在 本 节 中 将 介绍 如 何 利 用 
TensorBoard 中 其 他 栏目 可 视 化 这 些 监 控 指 标 。 除 了 GRAPHS 栏 ， 

TensorBoard 界面 中 还 提供 了 EVENTS `œ IMAGES ` AUDIO 和 
HISTOGRAMS 四 个 栏目 来 可 视 化 其 他 的 监控 指标 。 下 面 的 程序 展示 了 
如 何 将 TensorFlow 程 序 运行 时 的 信息 输出 到 TensorBoard 日 志文 件 中 。 


import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


SUMMARY_DIR = "/path/to/log" 
BATCH_SIZE = 100 


TRAIN_STEPS = 30000 


# 生成 变量 监控 信息 并 定义 生成 监控 信息 日 志 的 操作 。 其 中 var 给 出 了 需要 记录 
的 张 量 ，name 给 


# 出 了 在 可 视 化 结 采 中 显示 的 图 表 名 称 ， 这 个 名 称 一 般 与 变量 名 一 致 。 
def variable_summaries(var, name): 
# 将 生成 监控 信息 的 操作 放 到 同一 个 命名 空间 下 。 


with tf.name_scope('summaries' ): 


# 通过 tf.histogram_summary 函 数 记 录 张 量 中 元 素 的 取 值 分 布 。 对 于 给 
出 的 图 表 名 称 


# 和 张 量 ，tf.histogram summary 函数 会 生成 一 个 
Summary protocol buffer ° 


# 将 Summary 写 入 TensorBoard 日 志文 件 后 ， 可 以 在 HISTOGRAMS 栏 下 
看 到 对 应 名 


# 称 的 图 表 。 图 9-20 给 出 了 一 个 可 视 化 结果 效果 图 。 和 TensorFlow 中 其 


他 操作 类 似 ， 


# tf.histogram_summary HA S WAR, RA ï sess. rung 
明确 调用 这 


# 个 操作 时 ，TensorFlow 才 会 真正 生成 并 输出 


Summary protocol buffer ° 


tf.histogram_summary(name, var) 


# 计算 变量 的 平均 值 ， 并 定义 生成 平均 值 信息 日 志 的 操作 。 记 录 变 量 乎 均值 
信息 的 日 志 标 签名 


# 为 'mean/' + name， 其 中 mean 为 命名 空间 ，/ 是 命名 空间 的 分 隔 符 。 
从 图 9-17 


# 中 可 以 看 到 ， 在 相同 命名 空间 中 的 监控 指标 会 被 整合 到 同一 栏 中 。name 
则 给 出 了 当前 监 


# 控 指 标 属于 哪 一 个 变量 。 


mean = tf.reduce mean(var) 


tf.scalar_summary('mean/' + name, mean) 


# 计算 变量 的 标准 差 ， 并 定义 生成 其 日 志 的 操作 。 
stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean))) 


tf.scalar_summary('stddev/' + name, stddev) 


# 生成 一 层 全 链接 层 神 经 网 络 。 


def nn_layer(input_tensor, input_dim, output_dim, 


layer_name, act=tf.nn. relu): 


# 将 同一 层 神 经 网 络 放 在 一 个 统一 的 命名 空间 下 。 


with tf.name_scope(layer_name): 


# 声明 神经 网 络 边 上 的 权重 ， 并 调用 生成 权重 监控 信息 日 志 的 函数 。 


with tf.name_scope('weights'): 
weights = tf.Variable(tf.truncated_normal ( 
[input_dim, output_dim], stddev=0.1)) 


variable_summaries(weights, layer_name + '/weights' 


# 声明 神经 网 络 的 偏 置 项 ， 并 调用 生成 偏 置 项 监控 信息 日 志 的 函数 。 
with tf.name_scope('biases'): 


biases = tf.Variable(tf.constant(0.0, shape= 
[output_dim] ) ) 


variable _summaries(biases, layer_name + '/biases' ) 


with tf.name_scope('Wx_plus_b'): 


preactivate = tf.matmul(input_tensor, weights) + bi 
ases 


# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 前 的 分 布 。 


tf.histogram_summary(layer_name + '/pre_activations 


preactivate) 


activations = act(preactivate, name='activation' ) 


| 


# 记录 神经 网 络 输 出 节点 在 经 过 激活 辑 数 之 后 的 分 布 。 在 图 9-20 中 ， 对 于 
layer1, 


l 


# 为 使 用 了 ReLU 函 数 作 为 激活 函数 ， 所 以 所 有 小 于 6 的 值 都 被 设 为 了 0。 于 
是 在 激活 后 


# 的 layer1l/activations 图 上 所 有 的 值 都 是 大 于 0 的 。 而 对 于 layer2， 
因为 没有 使 


# MAWKA, 所 以 layer2/activations 和 
layer2/pre_activations 一 样 。 


tf.histogram_summary(layer_name + '/activations', activ 
ations) 


return activations 


def main(_): 


mnist = input_data.read_data_sets("/tmp/data", one_hot=True 


# 定义 输入 。 


with tf.name_scope('input'): 


x = tf.placeholder(tf.float32, [None, 784], name='x- 
input ' ) 


y_ = tf.placeholder(tf.float32, [None, 10], name='y- 
input ' ) 


# RT A IR) eA A aR E, Aid tf.image_ summary Have CH 
当前 的 图 片 信 


# 息 写 入 日 志 的 操作 。 
with tf.name_scope('input_reshape' ): 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 


tf.image_summary('input', image _shaped_input, 10) 


hiddent = nn_layer(x, 784, 500, 'layer1') 


y = nn_layer(hiddeni, 500, 10, ‘layer2', act=tf.identity) 


H RIEN E AR tn ES EERE o 
with tf.name_scope('cross_entropy'): 
cross_entropy = tf.reduce_mean( 


tf.nn.softmax_cross_entropy_with_logits(y, y_)) 


tf.scalar_summary('cross entropy', cross_entropy) 


with tf.name_scope('train'): 


train_step = tf.train.AdamOptimizer (0.001) .minimize(cro 
ss_entropy) 


# 计算 模型 在 当前 给 定数 据 上 的 正确 率 ， 并 定义 生成 正确 率 监控 日 志 的 操作 。 如 
果 在 sess.run 


# 时 给 定 的 数据 是 训练 batch， 那 么 得 到 的 正确 率 就 是 在 这 个 训练 patch 上 的 正 
确 率 ; 如 果 


# 给 定 的 数据 为 验证 或 者 测试 数据 ， 那 么 得 到 的 正确 率 就 是 在 当前 模型 在 验证 或 
者 测试 数据 上 


# 的 正确 率 。 
with tf.name_scope('accuracy'): 
with tf.name_scope('correct_prediction' ): 


correct_prediction = tf.equal(tf.argmax(y, 1), tf.a 
rgmax(y_, 1)) 


with tf.name_scope('accuracy'): 
accuracy = tf.reduce_mean( 
tf.cast(correct_prediction, tf.float32) ) 


tf.scalar_summary('accuracy', accuracy) 


# 和 TensorFlow 中 其 他 操作 类 似 ，tf.scalar sumnary ` 
tf.histogram_summary 


# #Altf.image_summaryWAWeRS IAT, A sess. run Miva A 


# 因为 程序 中 定义 的 写 日 志 操 作 比较 多 ， 一 一 调用 非常 麻烦 ， 所 以 TensorFlow 


# tf.merge_all_summaries 函数 来 整理 所 有 的 日 志 生 成 操作 。 在 
TensorFlow 程 序 执行 


# 的 过 程 中 只 需要 运行 这 个 操作 就 可 以 将 代码 中 定义 的 所 有 日 志 生成 操作 执行 一 
次 ， 从 而 将 所 


# AA MSA ° 


merged = tf.merge_all_summaries() 


with tf.Session() as sess: 
# 初始 化 写 日 志 的 writer， 并 将 当前 TensorFlow 计 算 图 写 入 日 志 。 


summary_writer = tf.train.SummaryWriter(SUMMARY_DIR, se 
ss.graph) 


tf.initialize_all_variables().run() 


for i in range(TRAIN_STEPS): 


XS, YS = mnist.train.next_batch(BATCH_SIZE) 
# 运行 训练 步骤 以 及 所 有 的 目 志 生成 操作 ， 得 到 这 次 运行 的 目 志 。 
summary, _ = sess.run([merged, train_step], 


feed _dict= 
{X: XS, y_i ys}) 


# 将 所 有 日 志 写 入 文件 ，TensorBoard 程 序 就 可 以 拿 到 这 次 运行 所 对 
应 的 运行 信息 。 


summary_writer.add_summary(summary, i) 


summary_writer.close() 


im Enamel =S mane E 


tf.app.run() 


从 上 面 的 程序 可 以 看 出 ， 除 了 GRAPHS 之 外 ，Tensorboard 中 的 每 一 栏 
对 应 了 TensorFlow 中 一 种 日 志 生 成 函数 ， 表 9-1 总 结 了 这 个 对 应 关系 。 


表 9-1 TensorFlow 日 志 生成 函数 与 TensorBoard 界 面 栏 对 应 关系 。 


TensorFlow 日 志 生 成 ”TensorBoard 界面 展示 内 容 
函数 栏 
tf.scalar_summary EVENTS TensorFlow 中 标 & 
(scalar) 监控 数据 随 着 
送 代 进行 的 变化 趋势 。 图 


tf.image_summary 


tf.audio_summary 


tf.histogram_summary HISTOGRAMS 


IMAGES 


AUDIO 


9-18 中 展示 了 当前 模型 在 
训练 bacth 上 的 正确 率 随 
ae 

TensorFlow 中 使 用 的 
图 片 数据 。 这 一 栏 一 般 用 
于 可 视 化 当前 使 用 的 训 
练 / 测 斌 图片。 图 9-19 中 
展示 了 例 程序 在 最 后 一 轮 
训练 时 使 用 的 图 片 。 

TensorFlow 中 使 用 的 
音频 数据 。 

TensorFlow 中 张 量 分 
布 监控 数据 随 着 从 代 轮 数 
的 变化 趋势 。 图 9-20 中 展 
示 了 神经 网 络 参数 取 值 分 
a Be aA TET Ae (iS 


运行 上 面 的 样 例 程 序 并 使 用 9.1 节 中 介绍 的 方式 启动 TensorBoard， 可 以 
看 到 如 图 9-16 所 示 的 界面 。 在 这 个 页 面 上 有 4 组 不 同 的 监控 指标 ， 这 些 
指标 都 是 样 例 程 序 中 通过 tf.scalar_summary 范 数 生成 的 。 和 变量 的 命名 
空间 类 似 ，TensorBoard 也 会 根据 监控 指标 的 名 称 进行 分 组 。 从 图 9-17 
中 可 以 看 到 ， 名 称 为 mean 的 栏目 下 有 4 组 不 同 的 监控 指标 。 这 4 个 不 同 
的 指标 都 以 mean 开 头 ， 并 通过 斜 线 “/: 划 分 不 同 的 命名 空间 。 不 过 和 
TensorFlow 计 算 图 可 视 化 结果 不 同 的 是 ，EVENTS 栏 只 会 对 最 高 层 的 
命名 空间 进行 整合 ， 单 击 展开 后 将 看 到 该 命名 空间 下 的 所 有 监控 指 


标 。 


图 9-16 ”使 用 


TensorBoard 


展示 标量 监控 信息 的 默认 页 
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图 9-17 展开 标量 监控 页 面 中 的 监控 内 容 后 得 到 的 页 


el 


在 每 一 个 监控 指标 的 左下 角 有 一 个 小 方 框 <) 4 ”， 单 击 这 个 方 框 可 以 


得 到 放大 后 的 图 片 。 放 大 后 的 效果 如 图 9-18 所 示 。 再 单 击 一 次 这 个 小 
方 框 可 以 将 放大 后 的 图 表 缩 小 。 在 训练 神经 网 络 时 ， 通过 TensorBoard 
监控 神经 网 络 中 变量 取 值 的 变化 、 模 型 在 训练 batch 上 的 损失 函数 大 小 
以 及 学 习 率 的 变化 等 信息 可 以 更 加 方便 地 掌握 模型 的 训练 情况 。 


cross entropy 


mean 


meseviayert biases mean/iayeri weights meanvlayer2/biazes meanvayer2/weights 


图 9-18 ”展开 某 一 项 监控 标量 时 的 放大 图 


图 9-19 展 示 了 通过 TensorBoard 可 视 化 当前 轮训 练 使 用 的 图 像 信 息 。 通 
过 这 个 界面 可 以 大 致 看 出 数据 随机 打 乱 的 效果 。 因 为 TensorFlow 程 序 


和 TensorBoard 可 视 化 界面 可 以 同时 运行 ， 所 以 从 TensorBoard 上 可 以 实 
时 看 到 TensorFlow 程 序 中 最 新 使 用 的 训练 或 者 测试 图 像 。 


图 9-19 ”通过 TensorBoard 可 视 化 训练 图 像 


TensorBoard 最 后 一 栏 提供 了 对 张 量 取 值 分 布 的 可 视 化 界面 。 通 过 这 个 
界面 ， 可 以 直观 地 观察 到 不 同 层 神经 网 络 中 参数 的 取 值 变化 。 


layer2 


A9-20 ”通过 TensorBoard 可 视 化 张 量 取 值 分 布 效 果 


小 结 


在 本 章 中 介绍 了 TensorFlow 的 可 视 化 工具 TensorBoard。TensorBoard 是 
TensorFlow 目 市 的 工具 ， 不 需要 额外 的 安装 过 程 。 虽 然 TensorBoard 和 
TensorFlow 运行 在 不 同 的 进程 中 ， 但 是 TensorBoard 会 实时 读 取 
TensorFlow 程 序 输出 的 日 志文 件 从 而 获取 最 新 的 TensorFlow 程 序 运行 状 
人 态 。 通 过 TensorBoard， 一 方面 可 以 更 好 地 了 解 TensorFlow 计 算 图 的 结 
构 以 及 每 个 TensorFlow 计 算 世 点 在 运行 时 的 时 间 、 内 存 消 耗 。 另 一 方 
面 也 可 以 通过 TensorBoard 可 视 化 神经 网 络 模型 训练 过 程 中 各 种 指标 的 
变化 趋势 ， 直 观 地 了 解 神 经 网 络 的 训练 情况 。 


(1)_ 使 用 --port 参 数 可 以 改变 启动 服务 的 端口 。 


(2).“+? 号 会 在 鼠标 移动 到 这 个 节点 时 显示 在 节点 的 右上 角 。 


(3)_ 注意 这 里 “Variable" 表 示 名 称 为 Variable 的 变量 ， 而 不 是 所 有 神经 网 络 中 的 参数 。 在 样 例 程 
序 中 ， 名 称 为 Variable 的 变量 是 存储 训练 迄 代 轮 数 的 变量 。 


第 10 章 ”TensorFlow 计 算 加 速 


在 前 面 的 章节 中 介绍 了 使 用 TensorFlow 实 现 各 种 深度 学 习 的 算法 。 然 
而 要 将 深度 学 习 应 用 到 实际 问题 中 ， 一 个 非常 大 的 问题 在 于 训练 深度 
学 习 模型 需要 的 计算 量 太 大 。 比 如 要 将 第 6 章 中 介绍 的 Inception-v3 模 
型 在 单机 上 训练 到 78% 的 正确 率 需 要 将 近 半 年 的 时 间 s， 这 样 的 训练 
速度 是 完全 无 法 应 用 到 实际 生产 中 的 。 为 了 加 速 训 练 过 程 ， 本 章 将 介 
绍 如 何 通 过 TensorFlow 利 用 GPU 或 /和 分 布 式 计算 进行 模型 训练 。 


首先 ， 在 10.1 节 中 将 介绍 如 何在 TensorFlow 中 使 用 单个 GPU 进行 计算 加 
速 ， 也 将 介绍 生成 TensorFlow 会 话 (tft.Sessiom 时 的 一 些 党 用 参数 。 通 过 
这 些 参 数 可 以 使 调试 更 加 方便 而 且 程 序 的 可 扩展 性 更 好 。 然 而 ， 在 很 
多 情况 下 ， 单 个 GPU 的 加 速效 率 无 法 满足 训练 大 型 深度 学 习 模型 的 计 
算 量 需求 ， 这 时 将 需要 利用 更 多 的 计算 资源 。 为 了 同时 利用 多 个 GPU 
或 者 多 台 机 器 ，10.2 节 中 将 介绍 训练 深度 学 习 模 型 的 并 行 方式 。 然 
后 ，10.3 廊 将 介绍 如 何在 一 台 机 器 的 多 个 GPU 上 并 行 化 地 训练 深度 学 
习 模 型 。 在 这 一 和 中 也 将 给 出 具体 的 TensorFlow 样 例 程 序 来 使 用 多 
GPU 训练 模型 ， 并 比较 并 行 化 效率 提升 的 比率 。 最 后 在 10.4 下 中 将 介 
绍 分 布 式 TensorFlow， 以 及 如 何 通过 分 布 式 TensorFlow 训 练 深度 学 习 模 


型 。 在 这 一 节 中 将 给 出 具体 的 TensorFlow 样 例 程序 来 实现 不 同 的 分 布 
式 深 度 学 习 训 练 模 式 。 虽 然 TensorFlow 可 以 文 持 分 布 式 深度 学 习 模 型 
训练 ， 但 是 它 并 不 提供 集群 创建 、 管 理 等 功能 。 为 了 更 方便 地 使 用 分 


布 式 TensorFlow，10.4 广 中 将 介绍 才 云 科技 基于 Kubernetes 容 器 云 平台 
搭建 的 分 布 式 TensorFlow 系 统 。 


10.1 TensorEFElow 使 用 GPU 


TensorFlow 程 序 可 以 通过 tt.device 男 数 来 指定 运行 每 一 个 操作 的 设备 ， 
这 个 设备 可 以 是 本 地 的 CPU 或 者 GPU ， 也 可 以 是 某 一 台 远 程 的 服务 
右 。 但 在 本 下 中 只 关心 本 地 的 设备 。TensorFlow 会 给 每 一 个 可 用 的 设 
备 一 个 名 称 ，tf.device 范 数 可 以 通过 设备 的 名 称 来 指定 执行 运算 的 设 
备 。 比 如 CPU 在 TensorFlow 中 的 名 称 为 /cpu:0。 在 默认 情况 下 ， 即 使 机 
器 有 多 个 CPU，TensorFlow 也 不 会 区 分 它们 ， 所 有 的 CPU 都 使 用 /cpu:0 
作为 名 称 。 而 一 台 机 器 上 不 同 GPU 的 名 称 是 不 同 的 ， 第 n 个 GPU 在 
TensorFlow 中 的 名 称 为 /gpun。 比 如 第 一 个 GPU 的 名 称 为 /gpu:0， 第 二 
个 GPU 名 称 为 /gpu:1， 以 此 类 推 。 


TensorFlow 提 供 了 一 个 快捷 的 方式 来 查看 运行 每 一 个 运算 的 设备 。 在 
生成 会 话 时 ， 可 以 通过 设置 1og_device_placement 参 数 来 打印 运行 每 一 
个 运算 的 设备 o 下 面 的 程序 展示 了 如 何 使 用 log_device_placement 这 个 


参数 。 


import tensorflow as tf 


a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 
b = tf.constant([1.0, 2.0, 3.0], shape=[3], name='b') 


© =A a | 


# 通过 10g_device_placement 参 数 来 输出 运行 每 一 个 运算 的 设备 。 


sess = tf.Session(config=tf.ConfigProto(log_device_placemen 
t=True) ) 


print sess.run(c) 


在 没有 GPU 的 机 器 上 运行 以 上 代码 可 以 得 到 以 下 输出 : 


Device mapping: no known devices. 


add: /job:localhost/replica:0/task:0/cpu:0 
b: /job:localhost/replica:0/task:0/cpu:0 


a: /job:localhost/replica:0/task:0/cpu:0 


在 以 上 代码 中 ，TensorFlow 程 序 生成 会 话 时 加 入 了 参数 
log_device_placement=True， 所 以 程序 会 将 运行 每 二 个 操作 的 设备 输出 
到 屏幕 。 于 是 除了 可 以 看 到 最 后 的 计算 结果 之 外 ， 还 可 以 看 到 类 
似 “add: /job:localhost/replica:0/task:0/cpu:0” 这 样 的 输出 。 这 些 输出 显示 
了 执行 每 一 个 运算 的 设备 。 比 如 加 法 操作 add 是 通过 CPU 来 运行 的 ， 
为 它 的 设备 名 称 中 包含 了 /cpu:0。 


在 配置 好 GPU 环境 的 TensorFlow 中 圣 ， 如 果 操 作 没 有 明确 地 指定 运行 
设备 ， 那 么 TensorFlow 会 优先 选择 GPU 。 比 如 将 以 上 代码 在 亚马逊 

(Amazon Web Services, AWS) 的 g2.8xlarge 实 例 上 运行 时 ， 会 得 到 以 
下 运行 结果 。 


Device mapping: 


/j0b:localhost/replica:0/task:0/gpu:0 - 
> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


/j0b:localhost/replica:0/task:0/gpu:1 - 
> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


/jo0b:localhost/replica:0/task:0/gpu:2 - 
> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


/jo0b:localhost/replica:0/task:0/gpu:3 - 
> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 


add: /job:localhost/replica:0/task:0/gpu:0 
b: /job:localhost/replica:0/task:0/gpu:0 
a: /job:localhost/replica:0/task:0/gpu:0 


[2. 4. 6.] 


从 上 面 的 输出 可 以 看 到 在 配置 好 GPU 环境 的 TensorFlow 中 ，TensorFlow 
会 自动 优先 将 运算 放置 在 GPU 上。 不过， 尽管 g2.8xlarge 实 例 有 4 个 
GPU， 在 默认 情况 下 ，TensorFlow 只 会 将 运算 优先 放 到 /gpu:0 上 “。 于 是 
可 以 看 见 在 上 面 的 程序 中 ， 所 有 的 运算 都 被 放 在 了 /gpu:0 上 。 如 果 需 
SN RIS FE DRI HIGPU SKE CPU 驶 需要 通过 tf.device 来 手工 
指定 。 下 面 的 程序 给 出 了 一 个 通过 tf.device 手 工 指定 运行 设备 的 样 例 。 


import tensorflow as tf 


# 通过 tf.device 将 运算 指定 到 特定 的 设备 上 。 


with tf.device('/cpu:0'): 
a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 
b = tf.constant([1.0, 2.0, 3.0], shape=[3], name='b') 
with tf.device('/gpu:1'): 


E = a 0 


sess = tf.Session(config=tf.ConfigProto(log device_placemen 
t=True) ) 


print sess.run(c) 


AWS g2.8xLlarge 实 例 上 运行 上 述 代码 可 以 得 到 以 下 结果 : 
Device mapping: 


/job:localhost/replica:0/task:0/gpu:0 - 
> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


/j0b:localhost/replica:0/task:0/gpu:1 - 
> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


/jo0b:localhost/replica:0/task:0/gpu:2 - 


> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


/j0b:localhost/replica:0/task:0/gpu:3 - 
> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 


add: /job:localhost/replica:0/task:0/gpu:1 
b: /job:localhost/replica:0/task:0/cpu:0 


a: /job:localhost/replica:0/task:0/cpu:0 


在 以 上 代码 中 可 以 看 到 生成 常量 a 和 b 的 操作 被 加 载 到 了 CPU 上 ， 而 加 
法 操作 被 放 到 了 第 二 个 GPU“/gpu:1” 上 。 在 TensorFlow 中 ， 不 是 所 有 的 
探 作 都 可 以 被 放 在 GPU 上 ， 如 果 强 行将 无 法 放 在 GPU 上 的 操作 指定 到 
GPU 上 ， 那 么 程序 将 会 报错 。 以 下 代码 给 出 了 一 个 报错 的 样 例 。 


import tensorflow as tf 


ee 


# 在 CPU 上 运行 tf.,Variable 


a_cpu = tf.Variable(0, name="a_cpu") 


with tf.device('/gpu:0'): 


# 将 tf.Variable 强 制 放 在 GPU 上 ° 


a_gpu = tf.Variable(0, name="a_gpu") 


sess = tf.Session(config=tf.ConfigProto(log_ device_placemen 
t=True) ) 


sess.run(tf.initialize_all_variables() ) 


运行 上 面 的 程序 将 会 报 出 以 下 错误 : 

tensorflow. python. framework.errors.InvalidArgumentError: Ca 
nnot assign a device to node 'a_gpu': Could not satisfy explici 
t device specification '/device:GPU:0' because no supported ker 
nel for GPU devices is available. 

Colocation Debug Info: 

Colocation group had the following types and devices: 

Identity: CPU 

Assign: CPU 


Variable: CPU 


[[Node: a_gpu = Variable[container="", dtype=DT_INT32, shap 
e=[], shared_ name="", _device="/device:GPU:0"]()]] 


不 同 版 本 的 TensorFlow 对 GPU 的 支持 不 一 样 ， 如 果 程 序 中 全 部 使 用 强 
制 指定 设备 的 方式 会 降低 程序 的 可 移植 性 。 在 TensorFlow 的 kernel 人 中 
了 哪些 操作 可 以 跑 在 GPU 上 。 比 如 可 以 在 variable_ops.cc 程 序 中 找 
到 以 下 定义 。 


# define REGISTER_GPU_KERNELS(type) 
\ 


REGISTER_KERNEL_BUILDER( 
\ 


Name("Variable") .Device(DEVICE_GPU) .TypeConstraint<type> 
("dtype"),\ 


VariableOp); 


TF_CALL_GPU_NUMBER_TYPES(REGISTER_GPU_KERNELS) ; 


在 这 段 定 义 中 可 以 看 到 GPU 只 在 部 分 数据 类 型 上 文 持 tf.Variable 探 作 。 
如 果 在 TensorFlow 代 码 库 中 搜索 调用 这 上 段 代 码 的 安 
TF_CALL_GPU_NUMBER_TYPES， 可 以 发 现在 GPU 上 ，tf.Variable 操 
作 只 支持 实数 型 (float16、float32 和 double) 的 参数 。 而 在 报错 的 样 例 代 
码 中 给 定 的 参数 是 整数 型 的 ， 所 以 不 文 持 在 GPU 上 运行 。 为 避免 这 个 
问题 ，TensorFlow 在 生成 会 话 时 可 以 指定 allow_soft_placement 参 数 。 
当 allow_soft_placement 参 数 设 置 为 True 时 ， 如 果 运 算 无 法 由 GPU 执 
行 ， 那么 TensorFlow 会 上 自动 将 它 放 到 CPU 上 执行 。 以 下 代码 给 出 了 一 
个 使 用 allow_soft_placement 参 数 的 样 例 。 


import tensorflow as tf 


a_cpu = tf.Variable(0, name="a_cpu") 
with tf.device('/gpu:0'): 


a_gpu = tf.Variable(0, name="a_gpu") 


# 通过 allow_soft_placement 参 数 自动 将 无 法 放 在 GPU 上 的 操作 放 回 CPU 


sess = tf.Session(config=tf.ConfigProto( 
allow_soft_placement=True, log_device placement=True) ) 


sess.run(tf.initialize_all_variables() ) 


运行 上 面 这 段 程序 可 以 得 到 下 面 的 结果 : 
Device mapping: 


/job:localhost/replica:0/task:0/gpu:0 - 
> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


/j0b:localhost/replica:0/task:0/gpu:1 - 
> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


/j0b:localhost/replica:0/task:0/gpu:2 - 
> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


/j0b:localhost/replica:0/task:0/gpu:3 - 
> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 


a_gpu: /job:localhost/replica:0/task:0/cpu:0 

a_gpu/read: /job:localhost/replica:0/task:0/cpu:0 
a_gpu/Assign: /job:localhost/replica:0/task:0/cpu:0 
init/NoOp_1: /job:localhost/replica:0/task:0/gpu:0 

a_cpu: /job:localhost/replica:0/task:0/cpu:0 

a_cpu/read: /job:localhost/replica:0/task:0/cpu:0 
a_cpu/Assign: /job:localhost/replica:0/task:0/cpu:0 
init/NoOp: /job:localhost/replica:0/task:0/gpu:0 

init: /job:localhost/replica:0/task:0/gpu:0 
a_gpu/initial_value: /job:localhost/replica:0/task:0/gpu:0 


a_cpu/initial_value: /job:localhost/replica:0/task:0/cpu:0 


从 输出 的 日 志 中 可 以 看 到 在 生成 变量 a_gpu 时 ， a 自动 调 
整 到 了 CPU 上 (比如 a_gpu 和 a_gpu/read) ， 而 可 以 被 GPU 执 行 的 命令 (比如 
a_gpu/initial_value) 依旧 由 6PU 执 行 。 


虽然 GPU 可 以 加 速 TensorFlow 的 计算 ， 但 一 般 来 说 不 会 把 所 有 的 操作 
全 部 放 在 GPU 上 。 一 个 比较 好 的 实践 是 将 计算 密集 型 的 运算 放 在 GPU 
上 ， 而 把 其 他 操作 放 到 CPU 上 “。GPU 是 机 器 中 相对 独立 的 资源 ， 将 计 
算 放 入 或 者 转 出 GPU 都 需要 额外 的 时 间 。 而 且 GPU 需 要 将 计算 时 用 到 
的 数据 从 内 存 复 制 到 GPU 设备 上 ， 这 也 需要 额外 的 时 间 。TensorFlow 


可 以 目 动 完成 这 些 操作 而 不 需要 用 户 特别 处 理 ， 但 为 了 提高 程序 运行 
的 速度 ， 用 户 也 需要 尽量 将 相关 的 运算 放 在 同一 个 设备 上 。 


10.2 ”深度 学 习 训练 并 行 模式 


TensorFlow 可 以 很 容易 地 利用 单个 GPU 加 速 深 度 学 习 模 型 的 训练 过 
程 ， 但 要 利用 更 多 的 GPU 或 者 机 器 ， 和 需要 了 解 如 何 并 行 化 地 训练 深度 
学 习 模 型 。 尝 用 的 并 行 化 深度 学 习 模 型 训练 方式 有 两 种 ， 同 步 模式 和 
异步 模式 。 本 市 中 将 介绍 这 两 种 模式 的 工作 方式 及 其 优 劣 。 


为 帮助 读者 理解 这 两 种 训练 模式 ， 本 市 首先 简单 回顾 一 下 如 何 训 练 深 
度 学 习 模 型 。 图 10-1 展 示 了 深度 学 习 模 型 的 训练 流程 图 。 深 度 学 习 模 
型 的 训练 是 一 个 达 代 的 过 程 。 在 每 一 轮 迄 代 中 ， 前 癌 传 播 算法 会 根据 
当前 参数 的 取 值 计算 出 在 一 小 部 分 训练 数据 上 的 预测 值 ， 然 后 反 疝 传 
播 算 法 再 根据 损失 函数 计算 参数 的 梯度 并 更 新 参数 。 在 并 行 化 地 训练 
深度 学 习 模 型 时 ， 不 同 设备 (GPU 或 CPU) 可 以 在 不 同 训练 数据 上 运 
行 这 个 适 代 的 过 程 ， 而 不 同 并 行 模式 的 区 别 在 于 个 同 的 参数 更 新 方 


式 


获取 当前 参数 
取 值 


选取 一 部 分 训 
练 数据 


通过 前 同 传播 
获得 预测 值 


通过 反 回 传播 
更 新 参数 


图 10-1 深度 学 习 模 型 训练 流程 图 


图 10-2 展 示 了 异步 模式 的 训练 流程 图 。 从 图 10-2 中 可 以 看 到 ， 在 每 一 
轮 从 代 时 ， 不 同 设备 会 读 取 参 数 最 新 的 取 值 ， 但 因为 不 同 设备 读 取 参 
数 取 值 的 时 间 不 一 样 ， 所 以 得 到 的 值 也 有 可 能 不 一 样 。 根 据 当 前 参数 
的 取 值 和 随机 获取 的 一 小 部 分 训练 数据 ， 不 同 设备 各 目 运行 反 回 传 播 
的 过 程 并 独立 地 更 新 参数 。 可 以 简单 地 认为 异步 模式 吏 是 单机 模式 复 
制 了 多 份 ， 每 一 份 使 用 不 同 的 训练 数据 进行 训练 。 在 异步 模式 下 ， 不 


同 设备 之 间 古 完全 独立 的 。 


随机 选取 部 分 
训练 数据 


1 向 传播 获得 
预测 值 


和 向 传播 获得 
预测 值 


图 10-2 ”异步 模式 深度 学 习 模 型 训练 流程 图 


然而 使 用 异步 模式 训练 的 深度 学 习 模型 有 可 能 无 法 达到 较 优 的 训练 结 
果 。 图 10-3 中 给 出 了 一 个 具体 的 样 例 来 说 明 异 步 模 式 的 问题 。 其 中 黑 
色 曲 线 展示 了 模型 的 损失 函数 ， 黑 色 小 球 表示 了 在 t, 时 刻 参 数 所 对 应 
的 损失 函数 的 大 小 。 假 设 两 个 设备 d ,和 dq 在 时 间 同时 读 取 了 参数 的 
取 值 ， 那 么 设备 d ,和 dq 计算 出 来 的 梯度 都 会 将 小 黑 球 向 左 移动 。 假 设 
在 时 间 t 设备 d ,已 经 完成 了 有 反问 传播 的 计算 并 更 狐 了 参数 ， 修 改 后 的 
参数 处 于 图 10-3 中 小 灰 球 的 位 置 。 然 而 这 时 的 设备 d ,并 不 知道 参数 已 
经 被 更 新 了 ， 所 以 在 时 间 t, 时 ， 设 备 d 会 继续 将 小 球 回 左 移动 ， 使 得 
小 球 的 位 置 达 到 图 10-3 中 小 白 球 的 地 方 。 从 图 10-3 中 可 以 看 到 ， 当 参 
数 被 调整 到 小 白 球 的 位 置 时 ， 将 无 法 达到 最 优点 。 


J(@) 


图 10-3 ”异步 模式 训练 深度 学 习 模型 存在 的 问题 示意 图 


为 了 避免 更 新 不 同步 的 问题 ， 可 以 使 用 同步 模式 。 在 同步 模式 下 ， 所 
有 的 设备 同时 读 取 参数 的 取 值 ， 并 且 当 反 向 传播 算法 完成 之 后 同步 更 
新 参数 的 取 值 。 单 个 设备 不 会 单独 对 参数 进行 更 新 ， 而 会 等 待 所 有 设 
备 部 完成 及 同 传 播 之 后 再 统一 更 新 参数 名。 图 10-4 展 示 了 同步 模式 的 
训练 过 程 。 从 图 10-4 中 可 以 看 到 ， 在 每 一 轮 太 代 时 ， 不 同 设备 首先 统 
一 读 取 当前 参数 的 取 值 ， 并 随机 获取 一 小 部 分 数据 。 然 后 在 不 同 设备 
上 运行 反 向 传播 过 程 得 到 在 各 自 训练 数据 上 参数 的 梯度 。 注 意 虽 然 所 
有 设备 使 用 的 参数 是 一 致 的 ， 但 是 因为 训练 数据 不 同 ， 所 以 得 到 参数 
的 梯度 殉 可 能 不 一 样 。 当 所 有 设备 完成 反 回 传播 的 计算 之 后 ， 需 要 计 
同 设备 上 参数 标 度 的 平均 值 ， 最 后 再 根据 平均 值 对 参数 进行 更 
鸡 o 


向 传播 获得 前 向 传播 获得 前 向 传播 获得 
预测 值 预测 值 预测 值 


反 向 传播 获得 反问 又 向 传播 获得 
参数 更 新 值 参数 更 新 值 参数 更 新 值 


计算 参数 更 新 平 
均值 并 更 新 参数 


图 10-4 ”同步 模式 深度 学 习 模 型 训练 流程 图 


同步 模式 解决 了 异步 模式 中 存在 的 参数 更 新 问题 ， 然 而 同步 模式 的 效 
率 却 低 于 异步 模式 。 在 同步 模式 下 ， 每 一 轮 友 代 都 需要 设备 统一 
始 、 统 一 结束 。 如 采 设 备 的 运行 速度 不 一 致 ， 那 么 每 一 轮训 练 都 需要 
等 行 最 慢 的 设备 结束 才能 开始 更 新 参数 ， 于 是 很 多 时 间 将 被 伦 在 等 行 
上 上。 虽然 理论 上 异步 模式 存在 缺陷， 但 因为 训练 深度 学 习 模 型 时 使 用 
的 随机 梯度 下 降 本 身 束 是 梯度 下 降 的 一 个 近似 解法 ， 而 且 即 使 古 梯 度 
下 降 也 无 法 保证 达到 全 局 最 优 值 ， 所 以 在 实际 应 用 中 ， 在 相同 时 间 
内 ， 使 用 异步 模式 训练 的 模型 不 一 定 比 同步 模式 差 。 所 以 这 两 种 训练 
模式 在 实践 中 都 有 非常 广泛 的 应 用 。 


10.3 ”多 GPU 并 行 


在 10.2 节 中 介绍 了 常用 的 分 布 式 深度 学 习 模 型 训练 模式 。 这 一 节 将 给 
出 具体 的 TensorFlow 代 码 ， 在 一 台 机 器 的 多 个 GPU 上 并 行 训 练 深度 学 
习 模 型 。 因 为 一 般 来 说 一 台 机 絮 上 的 多 个 GPU 性 能 相似 ， 所 以 在 这 种 
设置 下 会 更 多 地 采用 同步 模式 训练 深度 学 习 模 型 。 下 面 将 给 出 具体 的 
代码 ， 在 多 GPU 上 训练 深度 学 习 模 型 解决 MNIST 问 题 。 本 布 的 样 例 代 
码 将 沿用 5.5 方 中 使 用 的 代码 框架 ， 并 且 使 用 5.5 节 中 给 出 的 
mnist_inference.py 程 序 来 完成 神经 网 络 的 前 癌 传 播 过 程 。 以 下 代码 给 
出 了 新 的 神经 网 络 训练 程序 mnist_multi_ gpu_train.py ° 


# -*- coding: utf-8 -*- 


from datetime import datetime 


import os 


import time 


import tensorflow as tf 


import mnist_inference 


# 定义 训练 神经 网 络 时 需要 用 到 的 配置 。 这 些 配置 与 5.5 节 中 定义 的 配置 类 似 。 


BATCH_SIZE = 100 


LEARNING_RATE_BASE = 0.001 


LEARNING_RATE_DECAY = 0.99 


REGULARAZTION_RATE = 0.0001 


TRAINING_STEPS = 1000 


MOVING_AVERAGE_DECAY = 0.99 


N_GPU = 4 


# 定义 日 志和 模型 输出 的 路 径 。 
MODEL_SAVE_PATH = "/path/to/logs_and_models/" 


MODEL_NAME = "model.ckpt" 


# 定义 数据 存储 的 路 径 。 因 为 需要 为 不 同 的 GPU 提供 不 同 的 训练 数据 ， 所 以 通过 


placerholder 


# 的 方式 就 需要 手动 准备 多 份 数据 。 为 了 方便 训练 数据 的 获取 过 程 ， 可 以 采用 第 


7 章 中 介绍 的 输 


# 入 队列 的 方式 从 TFRecord 中 读 取 数据 。 于 是 在 这 里 提供 的 数据 文件 路 径 为 将 
MNIST 训 练 数据 


# 转化 为 TFRecords 格 式 之 后 的 路 径 。 如何 将 MNIST 数 据 转化 为 TFRecord 格 式 
在 第 7 章 中 有 


= 
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DATA_PATH = "/path/to/data.tfrecords" 


# 定义 输入 队列 得 到 训练 数据 ， 有 具体 细节 可 以 参考 第 7 章 。 
def get_input(): 


filename_queue = tf.train.string_input_producer([DATA_PATH] 


reader = tf.TFRecordReader ( ) 


_, serialized_example = reader.read(filename_queue) 


# 定义 数据 解析 格式 。 
features = tf.parse_single example( 
serialized_example, 
features={ 
'image_raw': tf.FixedLenFeature([], tf.string), 
‘pixels': tf.FixedLenFeature([], tf.int64), 
"label': tf.FixedLenFeature([], tf.int64), 


}) 


# 解析 图 片 和 标签 信息 。 


decoded_image = tf.decode_raw(features['image_raw'], tf.uin 
t8) 


reshaped_image = tf.reshape(decoded_image, [784]) 
retyped_image = tf.cast(reshaped_image, tf.float32) 


label = tf.cast(features['label'], tf.int32) 


# 定义 输入 队列 并 返回 。 
min_after_dequeue = 10000 
Capacity = min_after_dequeue + 3 * BATCH_SIZE 


return tf.train.shuffle_batch( 


[retyped_image, label], 
batch_size=BATCH_SIZE, 
Capacity=capacity, 


min_after_dequeue=min_after_dequeue) 


# 定义 损失 函数 。 对 于 给 定 的 训练 数据 、 正 则 化 损失 计算 规则 和 命名 空间 ， 计 算 
在 这 个 命名 空间 


# 下 的 总 损失 。 之 所 以 需要 给 定 命名 空间 是 因为 不 同 的 GPU 上 计算 得 出 的 正则 化 
损失 都 会 加 入 名 为 


# 10oSss 的 集 含 ， 如 果 不 通 过 命名 空间 就 会 将 不 同 GPU 上 的 正则 化 损失 都 加 进来 。 
def get_loss(x, y_, regularizer, scope): 


# 沿用 5.5 节 中 定义 的 函数 来 计算 神经 网 络 的 前 向 传播 结果 。 


y = mnist_ inference.inference(x, regularizer) 
H RIMMA ° 
cross_entropy = tf.reduce_mean( 


tf.nn.sparse_softmax_cross_entropy_with_logits(y, y_)) 


# 计算 当前 GPU 上 计算 得 到 的 正则 化 损失 。 


regularization_loss = tf.add_n(tf.get_collection('losses', 
scope) ) 


# 计算 最 终 的 总 损失 。 


loss = cross_entropy + regularization_loss 


return loss 


# 计算 每 一 个 变量 梯度 的 平均 值 。 
def average gradients(tower_grads): 


average_grads = [] 


# 枚 举 所 有 的 变量 和 变量 在 不 同 GPU 上 计算 得 出 的 梯度 。 


for grad_and_vars in zip(*tower_grads): 


# 计算 所 有 GPU 上 的 梯度 平均 值 。 
grads = [] 
for g, _ in grad_and_vars: 
expanded_g = tf.expand_dims(g, 0) 


grads.append(expanded_g) 


grad tf.concat(0, grads) 


grad = tf.reduce_mean(grad, 0) 


v = grad_and_vars[0][1] 


grad_and_var = (grad, v) 


# 将 变量 和 它 的 平均 梯度 对 应 起 来 。 


average_grads.append(grad_and_var ) 


# 返回 所 有 变量 的 平均 梯度 ， 这 将 被 用 于 变量 更 新 。 


return average_grads 


# 主 训练 过 程 。 
def main(argv=None): 


# 将 简单 的 运算 放 在 CPU 上 ， 只 有 神经 网 络 的 训练 过 程 放 在 GPU 上 。 


with tf.Graph().as_default(), tf.device('/cpu:0'): 
# 获取 训练 batch 。 
X, y_ = get_input() 


regularizer = tf.contrib.layers.12 regularizer(REGULARA 
ZTION_RATE) 


# 定义 训练 轮 数 和 指数 衰减 的 学 习 率 。 
global_step = tf.get_variable( 


‘'global_step', [], initializer=tf.constant_initiali 
zer(0), 


trainable=False) 


learning_rate = tf.train.exponential_decay( 


LEARNING_RATE_BASE, global_step, 60000 / BATCH_SIZE 


LEARNING_ RATE_DECAY) 


# 定义 优化 方法 。 


opt = tf.train.GradientDescentOptimizer(learning_rate) 


tower_grads = [] 


# 将 神经 网 络 的 优化 过 程 跑 在 不 同 的 GPU 上 。 


for 1 in range(N_GPU): 
# 将 优化 过 程 指定 在 一 个 GPU 上 。 
with tf.device('/gpu:%d' % 1): 
with tf.name_scope('GPU_%d' % i) as scope: 


cur_loss = get_loss(x, y_, regularizer, sco 
pe) 


# 在 第 一 次 声明 变量 之 后 ， 将 控制 变量 重用 的 参数 设置 为 


True。 这 样 可 以 


# 让 不 同 的 GPU 更 新 同一 组 参数 。 注 意 tf.name_scope 画 
数 并 不 会 影响 


# tf.get Variable 的 命名 空间 。 


tf.get_variable_scope().reuse_variables() 


# 使 用 当前 GPU 计算 所 有 变量 的 梯度 。 


grads = opt.compute_gradients(cur_loss) 


tower_grads.append(grads) 


# 计算 变量 的 平均 梯度 ， 并 输出 到 TensorBoard 日 志 中 。 
grads = average_gradients(tower_grads) 
for grad, var in grads: 
if grad is not None: 
tf.histogram_summary ( 


'gradients_on_average/%s' % var.op.name, gr 
ad) 


# 使 用 平均 梯度 更 新 参数 。 

apply_gradient_op = opt.apply_gradients( 
grads, global_step=global_ step) 

for var in tf.trainable_variables(): 


tf.histogram_summary(var.op.name, var) 


# 计算 变量 的 滑动 平均 值 。 

variable_averages = tf.train.ExponentialMovingAverage( 
MOVING_AVERAGE_DECAY, global_step) 

variables_averages_op = variable_averages.apply( 


tf.trainable_variables()) 
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train_op = tf.group(apply_gradient_op, variables_averag 
es_op) 


saver = tf.train.Saver(tf.all_variables()) 
summary_op = tf.merge_all_summaries() 


init = tf.initialize_all_variables() 


# 训练 过 程 。 
with tf.Session(config=tf.ConfigProto( 
allow_soft_placement=True, 


log_device_placement=True)) as sess: 


oord=coord) 


# 初始 化 所 有 变量 并 启动 队列 。 
init.run() 
coord = tf.train.Coordinator() 


threads = tf.train.start_queue_runners(sess=sess, C 


summary_writer = tf.train.Summarywriter ( 


MODEL_SAVE_PATH, sess.graph) 


for step in range(TRAINING_STEPS): 


# 执行 神经 网 络 训练 操作 ， 并 记录 训练 操作 的 运行 时 间 。 


start_time = time.time() 
_, loss_value = sess.run([train_op, cur_loss]) 


duration = time.time() - start_time 


# 每 隔 一 段 时 间 展 示 当 前 的 训练 进度 ， 并 统计 训练 速度 。 


if step != 0 and step % 10 == 0: 


# 计算 使 用 过 的 训练 数据 个 数 。 因 为 在 每 一 次 运行 训练 操 


作 时 ， 每 一 个 GPU 


数据 个 数 为 


# 都 会 使 用 一 个 batch 的 训练 数据 ， 所 以 总 共用 到 的 训练 


# batch 大 小 xGPU 个 数 。 


num_examples_per_step = BATCH_SIZE * N_GPU 


# num_examples_per_step 为 本 次 迭代 使 用 到 的 训练 


数据 个 数 ， 


# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 于 是 平均 每 


秒 可 以 处 理 的 训 


# 练 数据 个 数 为 


num_examples_per_step / duration: 


exam 
duration 


ples_per_sec = num_examples_per_step / 


# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 因 为 在 每 一 


个 训练 过 程 5 


ou 


# 每 一 个 GPU 都 会 使 用 一 个 batch 的 训练 数据 ， 所 以 在 单个 


batch 上 的 训 


# 练 所 需要 时 间 为 duration / GPU 个 数 。 


sec_per_batch = duration / N_GPU 


# iy 


训练 信息 。 


format_str = ('step %d, loss = %.2f (%.1f e 


xamples/ ' 


' sec; %.3f sec/batch)') 
print(format_str % (step, loss_value, 


examples_per_sec, s 
ec_per_batch) ) 


# 通过 TensorBoard 可 视 化 训练 过 程 。 
summary = sess.run(summary_op) 


summary_writer.add_summary(summary, step) 


# 每 隅 一 段 时 间 保存 当前 的 模型 。 


if step % 1000 == 0 or (step + 1) == TRAINING_S 


TEPS: 
checkpoint_path = os.path.join( 
MODEL_SAVE_PATH, MODEL_ NAME) 
saver.save(sess, checkpoint_path, global_st 
ep=step) 


coord.request_stop() 


coord. join( threads ) 


if _name_ == ' main _': 


tf.app.run() 


step 10, loss 
h) 


step 20, loss 
h) 


step 30, loss 


step 40, loss 
h) 


step 980, loss 
h) 


step 990, loss 
h) 


在 AWS 的 g2 .8xlarge 实 例 上 运行 上 面 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 


71.90 (15292.3 examples/sec; 0.007 sec/batc 


37.97 (18758.3 examples/sec; 0.005 sec/batc 


9.54 (16313.3 examples/sec; 0.006 sec/batch 


11.84 (14199.0 examples/sec; 0.007 sec/batc 


0.66 (15034.7 examples/sec; 0.007 sec/batc 


1.56 (16134.1 examples/sec; 0.006 sec/batc 


在 AWS 的 g2.8xlarge 实 例 上 运行 以 上 代码 可 以 同时 使 用 4 个 GPU 训练 神 
经 网 络 。 图 10-5 显 示 了 运行 样 例 代码 时 不 同 GPU 的 使 用 情况 。 


Every 2.0s: nvidia-smi 
Tue Nov 29 06:46:07 2016 
Driver Version: 367. 


Volatile Uncorr. ECC 
GPU-Util Compute M. 


Persistence-M| 
Perf Pwr:Usage/Cap| 


0000:00:03.0 
3770MiB / 4036MiB 


0000:00:04.0 
3770MiB / 4036MiB 


0000:00:05.0 
3770MiB / 4036MiB 


0000:00:06.0 
3770MiB / 4036MiB 


+ 
| 
| 

十 
| 
| 

+ 
| 
| 
十 
| 
| 
十 
| 
| 
十 


python 3768MiB 
python 3768MiB 
python 3768MiB 

3768MiB 


图 10-5 ”在 AWS 的 g2.8xlarge 实 例 上 运行 MNIST 样 例 程序 时 GPU 的 使 用 情况 


因为 在 5.5 节 中 定义 的 神经 网 络 规模 比较 小 ， 所 以 在 图 10-5 中 显示 的 
GPU 使 用 率 不 高 。 如 果 训 练 大 型 的 神经 网 络 模型 ，TensorFlow 将 会 
满 所 有 用 到 的 GPU 。 


10-6 展 示 了 通过 TensorBoard 捍 可 视 化 得 到 的 样 例 代码 TensorFlow 计 
算 图 ， 其 中 节点 上 的 颜色 代表 了 不 同 的 设备 ， 比 如 黑色 代表 CPU、 A 
色 代 表 第 一 个 GPU， 等 等 。 从 图 10-5 中 可 以 看 出 ， 训 练 神 经 网 络 的 主 
要 过 程 被 放 到 了 GPU _0、GPU_1、GPU_ 2 和 GPU _ 3 这 4 个 模块 中 ， 而 且 
每 一 个 模块 运行 在 一 个 GPU 上。 对 比 图 10-5 中 的 TensorFlow 计 算 图 可 
视 化 结果 和 图 10-4 中 介绍 的 同步 模式 分 布 式 深度 学 习 训练 流程 图 可 以 
发 现 ， 这 两 个 图 的 结构 是 非常 接近 的 。 


1 iy 


图 10-6 ”使 用 了 4 个 GPU 的 TensorFlow 计 算 图 可 视 化 结果 


通过 调整 参数 N_GPU， 可 以 实验 同步 模式 下 随 着 GPU 个 数 的 增加 训练 
速度 的 加 速 比率 。 图 10-7 展 示 了 在 给 出 的 MNIST 样 例 代码 上 ， 训 练 速 
度 随 着 GPU 数量 增加 的 变化 趋势 。 从 图 10-7 中 可 以 看 出 ， 当 使 用 两 个 
GPU 时 ， 模 型 的 训练 速度 是 使 用 一 个 GPU 的 1.92 倍 。 也 束 是 说 当 GPU 
数量 较 小 时 ， 训 练 速度 基本 可 以 随 着 GPU 的 数量 线性 增长 。 图 10-8 展 
示 了 当 GPU 数 量 增 多 时 ， 训 练 速度 随 着 GPU 数量 增加 的 加 速 比 。 从 图 
10-8 中 可 以 看 出 ， 当 GPU 数量 增加 时 ， 虽 然 加 速 比 不 再 是 线性 ， 但 
模型 的 训 
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图 10-7 “训练 速度 随 着 GPU 数量 增加 的 变化 趋势 


(此 数据 是 通过 MNIST 样 例 代 码 在 AWS 的 g2.8xlarge 实 例 上 测试 得 到 的 ) 
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相 比 使 用 单个 GPU， 训 练 速度 的 速 比 
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图 10-8 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 ， 此 数据 来 自 谷 歌 官方 的 测试 结果 © 


10.4 分布 式 TensorFlow 


通过 多 GPU 并 行 的 方式 可 以 达到 很 好 的 加 速效 果 。 然 而 一 台 机 右上 能 
人 够 安装 的 GPU 有 限 ， 要 进一步 提升 深度 学 习 模型 的 训练 速度 ， 就 需要 
将 TensorFlow 分 布 式 运 行 在 多 台 机 右上 。 本 蔬 将 介绍 如 何 编写 以 及 运 
行 分 布 式 TensorFlow 的 程序 。 首 先 ， 在 10.4.1 小 节 中 将 介绍 分 布 式 
TensorFlow 的 工作 原理 ， 并 给 出 最 人 简单 的 分 布 式 TensorFlow 样 例 程序 。 
在 这 一 小 节 中 也 将 介绍 不 同 的 TensorFlow 分 布 式 方式 。 然 后 ， 在 10.4.2 
小 节 中 将 给 出 两 个 完整 的 TensorFlow 样 例 程序 来 同步 或 者 异步 地 训练 
深度 学 习 模 型 。 最 后 ， 在 10.4.3 小 和 中 将 总 结 目 前 原生 态 分 布 式 
TensorFlow 中 的 不 足 ， 并 介绍 才 云 科技 (Caicloud.io) 提供 的 分 布 式 


TensorFlow 解 决 方案 (TensorFlow as a Service, TaaS) ° 


10.4.1 分 布 式 TensorFlow 原 理 


在 10.2 节 中 介绍 了 分 布 式 TensorFlowijl| 练 深度 学 习 模 型 的 理论 。 本 小 节 
将 具体 介绍 如 何 使 用 TensorFlow 在 分 布 式 集群 中 训练 深度 学 习 模 型 。 
以 下 代码 展示 了 如 何 创 建 一 个 最 简单 的 TensorFlow 集 群 : 


import tensorflow as tf 

c = tf.constant("Hello, distributed TensorFlow!") 
# 创建 一 个 本 地 TensorFlow 集 群 

server = tf.train.Server.create_local_server() 

# 在 集群 上 创建 一 个 会 话 。 

sess = tf.Session(server.target) 

# 输出 Hello,，distributed TensorFlow! 


print sess.run(c) 


在 以 上 代码 中 ， 首 先 通过 tf.train.Server.create_local_server EH žE A Hh, 
建立 了 一 个 只 有 一 台 机 器 的 TensorFlow 人 集群。 然后 在 该 集群 上 生成 了 
一 个 会 话 ， 并 通过 生成 的 会 话 将 运算 运行 在 创建 的 TensorFlow 集 群 
上 。 虽 然 这 只 是 一 个 单机 集群 ， 但 它 大 致 反 应 了 TensorFlow 集 群 的 工 
作 流 程 。TensorFlow 集 群 通过 一 系列 的 任务 (tasks) 来 执行 TensorFlow 
计算 图 中 的 运算 。 一 般 来 说 ， 不 同 任务 跑 在 不 同 机 右上 。 最 主要 的 例 
外 是 使 用 GPU 时 ， 不 同 任务 可 以 使 用 同一 台 机 器 上 的 不 同 GPU © 
TensorFlow 集 群 中 的 任务 也 会 被 聚合 成 工作 (jobs) ， 每 个 工作 可 以 包 
售 一 个 或 者 多 个 任务 。 比 如 在 训练 深度 学 习 模 型 时 ， 一 人 台 运 行 反 回 传 
播 的 机 怖 是 一 个 任务 ， 而 所 有 运行 反 辐 传播 机 器 的 集合 是 一 种 工作 © 


上 面 的 样 例 代 码 是 只 有 一 个 任务 的 集群 。 当 一 个 TensorFlow 集 群 有 多 
个 任务 时 ， 需 要 使 用 tttrain.ClusterSpec 来 指定 运行 每 一 个 任务 的 机 
俐 。 比 如 以 下 代码 展示 了 在 本 地 运行 有 两 个 任务 的 TensorFlow 集 群 。 
第 一 个 任务 的 代码 如 下 : 


import tensorflow as tf 


c = tf.constant("Hello from serveri!") 


# 生成 一 个 有 两 个 任务 的 集群 ， 一 个 任务 跑 在 本 地 2222 端 口 ， 另 外 一 个 跑 在 本 地 
2223 端 口 。 


cluster = tf.train.ClusterSpec( 


{"local": ["localhost:2222", "localhost: 2223"]}) 


# 通过 上 面 生成 的 集群 配置 生成 Server， 并 通过 job _ name 和 task_index 指 定 
当前 所 启动 


# 的 任务 。 因 为 该 任务 是 第 一 个 任务 ， 所 以 task_index 为 0。 


server = tf.train.Server(cluster, job_name="local", task_in 
dex=0) 


# 通过 server .target 生 成 会 话 来 使 用 TensorFlow 集 群 中 的 资源 。 通 过 设置 


# lo0og_device_placement 可 以 看 到 执行 每 一 个 操作 的 任务 。 


sess = tf.Session( 


server.target, config=tf.ConfigProto(log_device_placement=T 


rue) ) 
print sess.run(c) 


server .join() 


下 面 给 出 了 第 二 个 任务 的 代码 : 


import tensorflow as tf 


c = tf.constant("Hello from server2!") 


# 和 第 一 个 程序 一 样 的 集群 配置 。 集 群 中 的 每 一 个 任务 需要 采用 相同 的 配置 。 
cluster = tf.train.ClusterSpec( 

{"local": ["localhost:2222", "localhost: 2223"]}) 

# 指定 task_index 为 1， 所 以 这 个 程序 将 在 1ocalhost :2223 启 动 服务 。 


server = tf.train.Server(cluster, job_name="local", task_in 
dex=1) 


# 剩 下 的 代码 都 和 第 一 个 任务 的 代码 一 致 。 


局 动 第 一 个 任务 后 ， 可 以 得 到 类 似 下 面 的 输出 : 


I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:2 
06] Initialize HostPortsGrpcChannelCache for job local - 
> {localhost:2222, localhost :2223} 


I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.c 
c:202] Started server with target: grpc://localhost:2222 


E1123 08:26:06.824503525 12232 tcp_client_posix.c:173] 
failed to connect to ‘ipv4:127.0.0.1:2223': socket error: con 
nection refused 


E1123 08:26:08.825022513 12232 tcp_client_posix.c:173] 
failed to connect to ‘ipv4:127.0.0.1:2223': socket error: con 
nection refused 


I tensorflow/core/common_runtime/simple_placer.cc:818] Cons 
t: /job:local/ replica:0/task:0/cpu:0 


Const: /job:local/replica:0/task:0/cpu:0 


Hello from server1! 


从 第 一 个 任务 的 输出 中 可 以 看 到 ， 当 只 局 动 第 一 个 任务 时 ， 程 序 会 停 
下 来 等 待 第 二 个 任务 启动 ， iA 输 出 failed to connect to 
‘ipv4:127.0.0.1:2223': socket error: connection refused。 当 第 二 个 任务 局 
动 后 ， 可 以 看 到 从 第 一 个 任务 中 会 输出 Hello from server1! 的 结果 。 第 
二 个 任务 的 输出 如 下 : 


I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:2 
06] Initialize HostPortsGrpcChannelCache for job local - 
> {localhost:2222, localhost:2223} 


I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.c 
c:202] Started server with target: grpc://localhost:2223 


Const: /job:local/replica:0/task:0/cpu:0 


I tensorflow/core/common_runtime/simple_placer.cc:818] Cons 
t: /job:local/ replica:0/task:0/cpu:0 


Hello from server2! 


值得 注意 的 是 第 二 个 任务 中 定义 的 计算 也 被 放 在 了 设 
备 /job:local/replica:0/task:0/cpu:0 上。 也 就 是 说 这 个 计算 将 由 第 一 个 任 
务 来 执行 。 从 上 面 这 个 样 例 可 以 看 到 ， 通 过 tf.train.Server.target 生 成 的 
会 话 可 以 统一 管理 整个 TensorFlow 集 群 中 的 资源 。 


和 使 用 多 GPU 类 似 ，TensorFlow 文 持 通过 tf.device 来 指定 操作 运行 在 哪 
个 任务 上 。 比 如 将 第 二 个 任务 中 定义 计算 的 语句 改 为 以 下 代码 ， 束 可 
以 看 到 这 个 计算 将 被 调度 到 /job:local/replica:0/task:1/cpu:0 上 面 。 


with tf.device("/job:local/task:1"): 


c = tf.constant("Hello from server2!") 


在 上 面 的 样 例 中 只 定义 了 一 个 工作 “local*。 但 一 般 在 训练 深度 学 习 模 
型 时 ， 会 定义 两 个 工作 。 一 个 工作 专门 负责 存储 、 获 取 以 及 更 新 变 量 
的 取 值 ， 这 个 工作 所 包含 的 任务 统称 为 参数 服务 器 (parameter 
server, ps) 。 男 外 一 个 工作 负责 运行 反 疝 传播 算法 来 获取 参数 梯度 ， 
这 个 工作 所 包含 的 任务 统称 为 计算 服务 器 (worker) 。 下 面 给 出 了 一 
个 比较 常见 的 用 于 训练 深度 学 习 模 型 的 TensorFlow 集 群 配 置 方法 。 


tf.train.ClusterSpec({ 

"worker": [ 
"tf-worker0:2222", 
"tf-worker1:2222", 


"tf-worker2:2222" 


"tf-ps0:2222", 
"tf-ps1:2222" 


] } ) (Com 


使 用 分 布 式 TensorFlow 训 练 深度 学 习 模 型 一 般 有 两 种 方式 。 一 种 方式 
叫做 计算 图 内 分 布 式 (in-graph replication) 。 使 用 这 种 分 布 式 训练 方 
式 时 ， 所 有 的 任务 都 会 使 用 一 个 TensorFlow 计 算 图 中 的 变量 (ee 
深度 学 习 模 型 中 的 参数 ) ， 而 只 是 将 计算 部 分 发 布 到 不 同 的 计算 服务 
右上 。10.3 贡 中 给 出 的 使 用 多 GPU 样 例 程序 就 是 这 种 方式 。 多 GPU 样 
例 程序 将 计算 复制 了 多 份 ， 每 一 份 放 到 一 个 GPU 上 进行 运算 。 但 不 同 
的 GPU 使 用 的 参数 都 是 在 一 个 TensorFlow 计 算 图 中 的 。 因 为 参数 都 是 
存在 同一 个 计算 图 中 ， 所 以 同步 更 新 参数 比较 容易 控制 。 在 10.3 节 中 
给 出 的 代码 也 实现 了 参数 的 同步 更 新 。 然 而 因为 计算 图 内 分 布 式 需 要 
有 一 个 中 心 节 点 来 生成 这 个 计算 图 并 分 配 计算 任务 ， 所 以 当 数 据 量 太 
大 时 ， 这 个 中 心 和 点 容易 造成 性 能 瓶颈 。 


另外 一 种 分 布 式 TensorFlow 训 练 深度 学 习 模 型 的 方式 叫 计算 图 之 间 分 
布 式 (between-graph replication) 。 使 用 这 种 分 布 式 方式 时 ， 在 每 一 个 
计算 服务 右上 都 会 创建 一 个 独立 的 TensorFlow 计 算 图 ， 但 不 同 计算 
中 的 相同 参数 需要 以 一 种 固定 的 方式 放 到 同一 个 参数 服务 器 上 。 
TensorFlow 提 供 了 tt.train.replica_device_setter 函 数 来 帮助 完成 这 一 个 过 
程 ， 在 10.4.2 小 节 中 将 给 出 具体 的 样 例 。 因 为 每 个 计算 服务 右 的 
TensorFlow 计 算 图 是 独立 的 ， 所 以 这 种 方式 的 并 行 度 要 更 高 。 但 在 计 
算 图 之 间 分 布 式 下 进行 参数 的 同步 更 新 比较 困难 。 为 了 解决 这 个 问 
题 ，TensorFlow 提 供 了 tt.train.SyncReplicasOptimizer 函 数 来 帮助 实现 参 
数 的 同步 更 新 。 这 让 计算 图 之 间 分 布 式 方 式 被 更 加 广泛 地 使 用 。 在 
10.4.2 小 方 中 将 给 出 使 用 计算 图 之 间 分 布 式 的 样 例 程序 来 实现 异步 模式 
和 同步 模式 的 并 行 化 深度 学 习 模 型 训练 过 程 。 


10.4.2 ”分布 式 TensorFlow 模 型 训练 


本 小 和 中 将 给 出 两 个 样 例 程序 分 别 实现 使 用 计算 图 之 间 分 布 式 

(Between-graph replication) 完成 分 布 式 深度 学 习 模 型 训练 的 异步 更 
浙 和 同步 更 新 。 第 一 部 分 将 给 出 使 用 计算 图 之 间 分 布 式 实现 异 步 更 新 
的 TensorFlow 程 序 。 这 一 部 分 也 会 给 出 具体 的 命令 行将 该 程序 分 布 式 
的 运行 在 一 个 参数 服务 右 和 两 个 计算 服务 妖 上 ， 并 通过 TensorBoard 可 
视 化 在 第 一 个 计算 服务 器 上 的 TensorFlow 计 算 图 。 第 二 部 分 将 给 出 计 
算 图 之 间 分 布 式 实现 同步 参数 更 新 的 TensorFlow 程 序 。 同 步 参数 更 新 
的 代码 大 部 分 和 异步 更 新 相似 ， 所 以 在 这 一 部 分 中 将 重点 介绍 它们 之 
间 的 不 同 之 处 。 


异步 模式 样 例 程序 
下 面 的 样 例 代码 将 仍然 采用 5.5 节 中 给 出 的 模式 ， 并 复 用 5.5 节 


mnist_inference.py 程 序 中 定义 的 前 问 传 播 算法 。 以 下 代码 实现 了 异步 
模式 的 分 布 式 神经 网 络 训练 过 程 。 


# -*- coding: utf-8 -*- 


import time 


import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


import mnist_inference 


# 和 5.5 节 中 类 似 的 配置 神经 网 络 的 设置 。 


BATCH_SIZE = 100 


LEARNING_RATE_BASE = 0.01 
LEARNING_RATE_DECAY = 0.99 
REGULARAZTION_RATE = 0.0001 
TRAINING_STEPS = 10000 

# 模型 保存 的 路 径 。 

MODEL_SAVE_PATH = "/path/to/model" 
# MNIST 数 据 路 径 。 


DATA_PATH = "/path/to/data" 


# 通过 flags 指 定 运行 的 参数 。 在 10.4.1 小 节 中 对 于 不 同 的 任务 (task) 给 出 
了 不 同 的 程序 ， 


# 但 这 不 是 一 种 可 扩展 的 方式 。 在 这 一 小节 中 将 使 用 运行 程序 时 给 出 的 参数 来 配 
置 在 不 同 


# 任务 中 运行 的 程序 。 


FLAGS = tf.app.flags.FLAGS 


# 指定 当前 和 运行 的 是 参数 服务 器 还 是 计算 服务 器 。 参 数 服务 器 只 负责 
TensorFlow 中 变量 的 维护 


# 和 管理 ， 计 算 服 务 器 负责 每 一 轮 迭 代 时 运行 反 向 传播 过 程 


tf.app.flags.DEFINE_string('job_name', 'worker', ' "ps" or 


"worker" ') 


# 指定 集群 中 的 参数 服务 器 地 址 。 


tf.app.flags.DEFINE_string( 


'ps_hosts', ' tf-ps0:2222,tf-psi:1111', 


"Comma - 
separated list of hostname:port for the parameter server jobs. 


te.gs “UP=psO: 2222 th -psiv dita” *) 


# 指定 集群 中 的 计算 服务 器 地 址 。 
tf.app.flags.DEFINE_string( 
"'worker_hosts', ' tf-worker0:2222,tf-worker1:1111', 


"Comma - 
separated list of hostname:port for the worker jobs. ' 


‘e.g. "tf-worker0:2222,tf-worker1:1111" ') 


# 指定 当前 程序 的 任务 ID。TensorFlow 会 自动 根据 参数 服务 器 /计算 服务 器 列 
表 中 的 端口 号 


# 来 启动 服务 。 注 意 参 数 服 务 器 和 计算 服务 器 的 编号 都 十 从 9 开始 的 。 


tf.app.flags.DEFINE integer( 


‘task_id', ©, 'Task ID of the worker/replica running the tr 
aining.') 


# 7EXTensorFlowHit RA, Fl POAT te BS TT AVERIE o IX ae 
ANS . 57 PASE 


# 辑 数 基本 一 致 ， 但 为 了 使 处 理 分 布 式 计算 的 部 分 更 加 突出 ， 本 小 节 将 此 过 程 整 
里 为 一 个 函数 。 


H 


def build_model(x, y_, is_chief): 


regularizer = tf.contrib.layers.12_regularizer (REGULARAZ 
TION_RATE) 


# 通过 和 5.5 节 给 出 的 mnist inference.py 代 码 计算 神经 网 络 前 向 传播 的 


y = mnist_inference.inference(x, regularizer) 


global_step = tf.Variable(0, trainable=False) 


# 计算 损失 函数 并 定义 反问 传播 过 程 。 


cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_ 
logits( 


y, tf.argmax(y_, 1)) 


cross_entropy_mean = tf.reduce_mean(cross_entropy) 


loss = cross_entropy_mean + tf.add_n(tf.get_collection(' 
losses')) 


learning_rate = tf.train.exponential_decay( 
LEARNING_RATE_BASE, global_step, 60000 / BATCH_SIZE, 


LEARNING_RATE_ DECAY) 


# 定义 每 一 轮 适 代 需 要 运行 的 操作 。 


train_op = tf.train.GradientDescentOptimizer(learning_ra 
te)\ 


.minimize(loss, global_step=global_step) 


return global_step, loss, train_op 


# 训练 分 布 式 深度 学 习 模型 的 主 过 程 。 

def main(argv=None): 
# 解析 flags 并 通过 tf.train.cCclusterSpec 配 置 TensorFlow 集 群 。 
ps_hosts = FLAGS.ps_hosts.split(',') 
worker_hosts = FLAGS.worker_hosts.split(',') 


cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker" 
: worker_hosts}) 


# 通过 ClusterSpec 以 及 当前 任务 创建 Server ° 


server = tf.train.Server ( 


id) 


server. 


e) 


的 设备 。 


cluster, job_name=FLAGS.job name, task_ index=FLAGS.task_ 


E 参数 服务 器 只 需要 管理 TensorFlow 中 的 变量 ， 不 需要 执行 训练 的 过 程 


join() 


if FLAGS.job_name == 'ps': 


server ,join( ) 


# 定义 计算 服务 器 需要 运行 的 操作 。 在 所 有 的 计算 服务 器 中 有 一 个 是 主 计算 


它 除 了 负责 


# 计算 反 向 传播 的 结果 ， 它 还 负责 输出 日 志和 保存 模型 。 
is_chief = (FLAGS.task_id == 0) 


mnist = input_data.read_data_sets(DATA_PATH, one_hot=Tru 


# 通过 tf.,train.replica_device_setter 画 数 来 指定 执行 每 一 个 运算 


# tf.train.replica _device_setter 了 汞 数 会 自动 将 所 有 的 参数 分 配 到 


参数 服务 器 上 ， 而 


# 计算 分 配 到 当前 的 计算 服务 器 上 。 图 10-9 展 示 了 通过 TensorBoard 可 视 


化 得 到 的 第 一 个 计 


# 算 服务 器 上 运算 分 配 的 结果 。 
with tf.device(tf.train.replica_device_setter( 


worker_device="/job:worker/task:%d" % FLAGS.task_id, 


cluster=cluster )): 
x = tf.placeholder ( 
tf.float32, [None, mnist_inference.INPUT_NODE], 
name='xX-input' ) 
y_ = tf.placeholder ( 
tf.float32, [None, mnist_inference.OUTPUT_NODE], 


name='y-input ' ) 


# 定义 训练 模型 需要 运行 的 操作 。 


global_step, loss, train_op = build_model(x, y_) 


# 定义 用 于 保存 模型 的 saver 。 


saver = tf.train.Saver() 
H 定义 日 志 输 出 操作 。 
summary_op = tf.merge_all_summaries() 


# 定义 变量 初始 化 操作 。 


init_op = tf.initialize_all_variables() 


# 通过 tf.train.Supervisor 管 理 训 练 深度 学 习 模型 的 通用 功能 。 


# tf.train. Supervisor 能 统一 管理 队列 操作 、 模 型 保存 、 日 志 输 出 以 


及 会 话 的 生成 。 
sv = tf.train.Supervisor ( 


is_chief=is_chief, 


GARB ar, R 


以 及 输出 日 志 。 
logdir=MODEL_SAVE_PATH, 
init_op=init_op, 
summary_op=Summary_op, 
saver = 


saver, 


global_step=global_step, 
生成 保存 模 


save_model_secs=60, 


save_summaries_secs=60) 


# 定义 当前 计算 服务 器 是 否 为 主 计 


# 主 计算 服务 器 会 保存 模型 


# 指定 保存 模型 和 输出 日 志 的 地 址 。 
# 指定 初始 化 操作 。 
# 指定 日 志 生 成 操作 。 


# 指定 用 于 保存 模型 的 saver 。 


as 


# 指定 当前 迭代 的 轮 数 ， 这 个 会 用 了 


EEEE 
# 指定 保存 模型 的 时 间 间 隔 。 


# 指定 日 志 输 出 的 时 间 间 隔 。 


sess_config = tf.ConfigProto(allow_soft_placement=True, 


log_device_placement 


=False) 
# 通过 tf.train.Supervisor 生 成 会 话 。 
sess = sv.prepare_or_wait_for_session( 


server.target, config=sess_config) 


step = 0 
start_time = time.time() 


# PUTER MARAE tf. train. Supervisor By iH H 
并 保存 模型 ， 


# 所 以 不 需要 直接 调用 这 些 过 程 。 


while not sv.should_stop(): 


xs, yS = mnist.train.next_batch(BATCH_SIZE) 


_, loss_value, global_step_value = sess.run( 


[train_op, loss, global_step], feed_dict= 
{Xn KSy “Vou VSP) 


if global_step_value >= TRAINING_STEPS: break 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
if step > 0 and step % 100 == 


duration = time.time() - start_time 


# 不 同 的 计算 服务 器 都 会 更 新 全 局 的 训练 轮 数 ， 所 以 这 里 使 用 


# global_step_value 可 以 直接 得 到 在 训练 中 使 用 过 的 


batch 的 总 数 。 
sec_per_batch = duration / global step_value 


format_str = ("After %d training steps (%d globa 


HL SPSS oY 
"loss on training batch is %g 
"(%.3f sec/batch)") 

print(format_str % (step, global_step_value, 
loss_value, sec_per_b 
atch) ) 
step += 1 
sv.stop() 
if _ name__ == "__main__": 


tf.app.run() 


假设 上 面 代码 的 文件 名 为 dist_tt_mnist_async.py， 那 么 要 局 动 一 个 拥有 
一 个 参数 服务 器 、 两 个 计算 服务 妖 的 集群 ， 需 要 先 在 运行 参数 服务 器 
的 机 器 上 启动 以 下 命令 : 


python dist_tf_mnist_async.py \ 
--job_name='ps' \ 

--task_id=0 \ 
--ps_hosts='tf-ps0:2222' \ 


--worker_hosts='tf-worker0: 2222, tf-worker1:2222' 


PRIS TEIBTT BH PT ARH elas EBL Pare: 


python dist_tf_mnist_async.py \ 
--job_name='worker' \ 
--task_id=0 \ 
--ps_hosts='tf-ps0:2222' \ 


--worker_hosts='tf-worker0:2222, tf-worker1:2222' 


BUS TEIATT Ti ARG lee EBL Pare: 


python dist_tf_mnist_async.py \ 
--job_name='worker' \ 


--task_id=1 \ 


--ps_hosts='tf-ps0:2222' \ 


--worker_hosts='tf-worker@: 2222, tf-worker1:2222' 
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服务 器 (包括 计算 服务 器 和 参数 服务 器 ) 。 如 果 其 他 服务 器 还 没有 局 
动 ， 则 被 启动 的 计算 服务 融会 报 连接 出 错 的 问题 。 下 面 展示 了 一 个 出 


fe Ae 


E1201 01:26:04.166203632 21402 tcp_client_posix.c:173] 
failed to connect to ‘ipv4:tf- 
worker1:2222': socket error: connection refused 


不 过 这 不 会 影响 TensorFlow 集 群 的 启动 。 当 TensorFlow 集 群 中 所 有 服务 
右 都 被 局 动 之 后 ， 每 一 个 计算 服务 器 将 不 再 报错 。 在 TensorFlow 集 群 
完全 启动 之 后 ， 训 练 过 程 将 被 执行 。 图 10-9 展 示 了 第 一 个 计算 服务 器 
的 TensorFlow 计 算 图 。 从 图 10-9 中 可 以 看 出 ， 神 经 网 络 中 定义 的 参数 
被 放 在 了 参数 服务 器 上 (APRA)  ， 而 有 反问 传播 的 计算 过 程 
则 放 在 了 当前 的 计算 服务 器 上 〈 图 中 的 深 灰 色 节 点 ) 。 


图 10-9 ”通过 TensorBoard 可 视 化 的 分 布 式 TensorFlow 计 算 图 


在 计算 服务 器 训练 神经 网 络 的 过 程 中 ， 第 一 个 计算 服务 器 会 输出 类 似 


下 面 的 信息 。 


After 100 
ng batch is 0. 


After 200 
ng batch is 0. 


After 300 
ng batch is 0. 


After 400 
ng batch is ©. 


After 500 
ng batch is 0. 


After 600 
ng batch is 0. 


training steps (100 global 
302718. (0.039 sec/batch) 


training steps (200 global 
269476. (0.037 sec/batch) 


training steps (300 global 
286755. (0.037 sec/batch) 


training steps (463 global 
349983. (0.033 sec/batch) 


training steps (666 global 
229955. (0.029 sec/batch) 


training steps (873 global 
245588. (0.027 sec/batch) 


第 二 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 
ng batch is 0. 


After 200 
ng batch is 0. 


After 300 


training steps (537 global 
223165. (0.007 sec/batch) 


training steps (732 global 
186126. (0.010 sec/batch) 


training steps (925 global 


steps), 


steps), 


steps), 


steps), 


steps), 


steps), 


steps), 


steps), 


steps), 


loss 


loss 


loss 


loss 


loss 


loss 


loss 


loss 


loss 


on 


on 


on 


on 


on 


on 


on 


on 


traini 


traini 


traini 


traini 


traini 


traini 


traini 


traini 


traini 


ng batch is 0.228191. (0.012 sec/batch) 


从 输出 的 信息 中 可 以 看 到 ， 在 第 二 个 计算 服务 器 启动 之 前 ， 第 一 个 计 
算 服务 絮 已 经 运行 了 很 多 轮 达 代 了 。 在 异步 模式 下 ， 即 使 有 计算 服务 
右 没 有 正常 工作 ， 参 数 更 新 的 过 程 仍 可 继续 ， 而 且 全 局 的 迭代 轮 数 古 
所 有 计算 服务 器 迭代 轮 数 的 和 。 


同步 模式 样 例 程序 


和 异步 模式 类 似 ， 下 面 给 出 的 代码 同样 也 是 基于 5.5 小 市 中 给 出 的 框 
架 。 该 代码 实现 了 同步 模式 的 分 布 式 伸 经 网 络 训练 过 程 。 


# -*- coding: utf-8 -*- 


import time 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


import mnist_inference 


BATCH_SIZE = 100 
LEARNING_RATE_BASE = 0.8 
LEARNING _RATE_DECAY = 0.99 


REGULARAZTION_RATE = 0.0001 


TRAINING_STEPS = 10000 
MODEL_SAVE_PATH = "/path/to/model" 


DATA_PATH = "/path/to/data" 


# 和 异步 模式 类 似 的 设置 flags。 


FLAGS = tf.app.flags.FLAGS 


tf.app.flags.DEFINE_string('job_name', 'worker', ' "ps" or 
"worker" ') 


tf.app.flags.DEFINE_string( 
‘ps_hosts', ' tf-ps0:2222,tf-psi:1111', 


"Comma - 
separated list of hostname:port for the parameter server jobs. 


Nenu. “ET PSO; 2222 Se i) 


tf.app.flags.DEFINE_string( 
‘'worker_hosts', ' tf-worker0:2222,tf-worker1:1111', 


"Comma - 
separated list of hostname:port for the worker jobs. ' 


‘e.g. "tf-worker0:2222,tf-workeri1:1111" ') 


tf.app.flags.DEFINE_integer( 


‘task_id', ©, 'Task ID of the worker/replica running the tr 


aining.') 


# 和 异步 模式 类 似 地 定义 TensorFlow 的 计算 图 。 唯 一 的 区 别 在 于 使 用 


# tf.train.SyncReplicasOptimizer KANE] E% ° 


def build_model(x, y_, n_workers, is_chief): 


tf.contrib.layers.12_regularizer (REGULARAZ 


regularizer = 


TION_RATE) 
y = mnist_inference.inference(x, regularizer ) 


global_step = tf.Variable(0, trainable=False) 


variable_averages = tf.train.ExponentialMovingAverage( 


MOVING_AVERAGE_ DECAY, global_step) 


variables_averages_op = variable_averages.apply(tf.train 


able_variables() ) 


cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_ 


logits( 


y, tf.argmax(y_, 1)) 
cross_entropy_mean = tf.reduce_mean(cross_entropy) 


loss = cross_entropy_mean + tf.add_n(tf.get_collection(' 
losses')) 


learning_rate = tf.train.exponential_decay( 
LEARNING_RATE_BASE, global_step, 60000 / BATCH_SIZE, 


LEARNING_RATE_ DECAY) 


# 通过 tf.train.SyncReplLicasOptimizer 函 数 实 现 同步 更 新 。 
opt = tf.train.SyncReplicasOptimizer ( 
# 定义 基础 的 优化 方法 。 


tf.train.GradientDescentOptimizer(learning_rate), 


# 定义 每 一 轮 更 新 需要 多 少 个 计算 服务 器 得 出 的 梯度 。 


replicas_to_aggregate=n_workers, 


# 指定 总 共有 多少 个 计算 服务 器 。 


total_num_replicas=n_workers, 


# 指定 当前 计算 服务 器 的 编号 。 


replica_id=FLAGS.task_id) 


train_op = opt.minimize(loss, global_step=global_step) 


return global_step, loss, train_op, opt 


def main(argv=None) : 
E 和 和 异步 模式 类 似 地 创建 TensorFlow 集 群 。 
ps_hosts = FLAGS.ps_hosts.split(',') 


worker_hosts = FLAGS.worker_hosts.split(',') 


n_workers = len(worker_hosts) 


cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker" 


: worker_hosts}) 


server = tf.train.Server ( 


cluster, job_name = FLAGS.job_name, task_index=FLAGS.tas 


k_id) 


if FLAGS.job_name == 'ps': 


server .join() 


e) 


is_chief = (FLAGS.task_id == 0) 


mnist = input_data.read_data_sets(DATA_PATH, one_hot=Tru 


with tf.device(tf.train.replica_device_setter( 
worker_device="/job:worker/task:%d" % FLAGS.task_id, 
cluster=cluster)): 
x = tf.placeholder( 
tf.float32, [None, mnist_inference.INPUT_NODE], 
name='x-input') 
y_ = tf.placeholder( 
tf.float32, [None, mnist_inference.OUTPUT_NODE], 
name='y-input' ) 
global_step, loss, train_op, opt = build_model( 


X, Y_, n_workers, is_chief) 


saver = tf.train.Saver() 


summary_op = tf.merge_all_summaries() 


init_op = tf.initialize_all_variables() 


# 在 同步 模式 下 ， 主 计算 服务 器 需要 协调 不 同 计算 服务 器 计算 得 到 的 参数 梯 
度 并 最 终 更 新 


# 参数 。 这 和 需要 主 计算 服务 器 完成 一 些 额外 的 初始 化 工作 。 


if is chief: 


# 定义 协调 不 同 计算 服务 器 的 队列 并 定义 初始 化 操作 。 
chief_queue_runner = opt.get_chief_queue_runner() 


init_tokens_op = opt.get_init_tokens_op(0) 


# 和 异步 模式 类 似 的 声明 tf.train.Supervisor。 

sv = tf.train.Supervisor(is_chief=is_chief, 
logdir=MODEL_SAVE_PATH, 
init_op=init_op, 
summary_op=summary_op, 
saver=saver, 
global_step=global_step, 
save_model_secs=60, 


save_summaries_secs=60) 


sess_config = tf.ConfigProto(allow_soft_placement=True, 


log_device_placement 
=False) 


sess = sv.prepare_or_wait_for_session( 


server.target, config=sess_config) 


# 在 开始 训练 模型 之 前 ， 主 计算 服务 器 需要 启动 协调 同步 更 新 的 队列 并 执行 
初始 化 操作 。 


if is chief: 


sv.start_queue_runners(sess, [chief_queue_runner ] ) 


sess.run(init_tokens_op) 


# 和 异步 模式 类 似 的 运行 迭代 的 训练 过 程 。 


step = 0 


start_time = time.time() 


while not sv.should_stop(): 


xs, YS = mnist.train.next_batch(BATCH_SIZE) 


_, loss_value, global_step_value = sess.run( 


[train_op, loss, global_step], feed_dict= 
Ba XS VE VST) 


和 异步 模式 类 似 ， 在 不 同 机 严 上 运行 以 上 代码 吏 可 以 司 动 TensorFlow 
集群 。 但 和 异步 模式 不 同 的 是 ， 当 第 一 台 计 算 服 务 絮 初始 化 完毕 之 


后 ， 它 并 不 能 直接 更 新 参数 。 这 是 因为 在 程序 中 要 求 每 一 次 参数 更 新 
都 需要 来 目 两 个 计算 服务 器 的 梯度 。 在 第 一 个 计算 服务 郁 上 ， 可 以 看 


到 与 下 面 类 似 的 输出 。 


E1201 01:26:04.166203632 21402 tcp_client_posix.c:173] 


failed to connect to 'ipv4:10.57.60.76: 


onnection refused 


After 100 training steps (100 global 
ng batch is 1.88782. (0.176 sec/batch) 


After 200 training steps (200 global 
ng batch is 0.834916. (0.101 sec/batch) 


After 800 training steps (800 global 
ng batch is 0.524181. (0.045 sec/batch) 


After 900 training steps (900 global 
ng batch is 0.384861. (0.042 sec/batch) 


第 二 个 计算 服务 器 的 输出 如 下 : 


After 100 training steps (100 global 
ng batch is 1.88782. (0.028 sec/batch) 


After 200 training steps (200 global 
ng batch is 0.834916. (0.027 sec/batch) 


2222; 


steps), 


steps), 


steps), 


steps), 


steps), 


steps), 


loss 


loss 


loss 


loss 


loss 


loss 


on 


on 


on 


on 


on 


on 


socket error: c 


traini 


traini 


traini 


traini 


traini 


traini 


After 800 training steps (800 global steps), loss on traini 
ng batch is 0.474765. (0.026 sec/batch) 


After 900 training steps (900 global steps), loss on traini 
ng batch is 0.420769. (0.026 sec/batch) 
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度 为 0.176 sec/batch， 要 远 远 慢 于 最 后 的 平均 速度 0.042 sec/batch。 这 是 
因为 在 第 一 迭代 轮 开 始 之 前 ， 第 一 个 计算 服务 器 需要 等 待 第 二 个 计算 
服务 器 执行 初始 化 的 过 程 ， 于 是 导致 讲 100 轮 迭代 的 平均 速度 是 最 慢 
的 。 这 也 反应 了 同步 更 新 的 一 个 问题 。 当 一 个 计算 服务 器 被 卡 住 时 ， 
其 他 所 有 的 计算 服务 器 都 需要 等 得 这 个 最 慢 的 计算 服务 器 。 


为 了 解决 这 个 问题 ， 可 以 调整 tf.train.SyncReplicasOptimizer 范 数 中 的 
replicas_to_ aggregate 参 数 。 当 replicas_to_aggregate 小 于 计算 服务 絮 总 
数 时 ， 每 一 轮 送 代 束 不 需要 收集 所 有 的 梯度 ， 从 而 避免 被 最 慢 的 计算 
服务 需 卡 住 。TensorFlow 也 文 持 通过 调整 同步 队列 初始 化 操作 
tf.train.SyncReplicasOptimizer.get_init_tokens_op 中 的 参数 来 控制 对 不 同 
计算 服务 器 之 间 的 同步 要 求 。 当 提供 给 初始 化 函数 get_init_ tokens_op 
的 参数 大 于 0 时 ，TensorFlow 文 持 多 次 使 用 由 同一 个 计算 服务 器 得 到 的 
梯度 ， 于 是 也 可 以 缓解 计算 服务 絮 性 能 短 贷 的 问题 。 


10.4.3 ”使 用 Caicloud 运 行 分 布 式 


TensorFlow 


从 10.4.2 小 节 中 给 出 的 样 例 程序 可 以 看 出 ， 每 次 运行 分 布 式 TensorFlow 
都 需要 登录 不 同 的 机 器 来 启动 集群 。 这 使 得 使 用 起 来 非常 不 方便 。 当 
需要 使 用 100 台 机 絮 运 行 分 布 式 TensorFlow 时 ， 需 要 手动 登录 到 每 一 台 
机 器 并 启动 TensorFlow 服 务 ， 这 个 过 程 十 分 烦 开 。 而 且 ， 当 菜 个 服务 
铬 上 的 程序 死 挥 之 后 ，TensorFlow 并 不 能 上 自动 重启 ， 这 给 监控 工作 机 
来 了 巨大 的 难度 。 如 果 类 比 TensorFlow 与 Hadoop 号， 可 以 发 现 
TensorFlow 只 实现 了 相当 于 Hadoop 中 MapReduce 的 计算 框架 ， 而 没有 
提供 类 似 Yarn 的 集群 管理 工具 以 及 HDFS 的 存储 系统 。 为 了 降低 分 布 式 


TensorFlow Hy (5 FAT Jt, A 24% (Caicloud.io) 基于 Kubernetes 9 容 
器 云 平 台 提 供 了 一 个 分 布 式 TensorFlow 平 台 TensorFlow as a Service 

(Taas) 血 。 本 节 中 将 大 致 介绍 如 何 使 用 Caicloud 提 供 的 Taas 和 平台 运 
行 分 布 式 TensorFlow 。 


从 10.4.2 小 地 中 给 出 的 代码 可 以 看 出 ， 编 写 分 布 式 TensorFlow 程 序 需要 
指定 很 多 与 模型 训练 无 天 的 代码 来 完成 TensorFlow 集 群 的 设置 工作 。 
为 了 降低 分 布 式 TensorFlow 的 学 习 成 本 ，Caicloud 的 TensorFlow as a 
Service (TaaS) 平台 首先 对 TensorFlow 和 集群 进行 了 更 高 层 的 封装 ， 屏 
敞 了 其 中 与 模型 训练 无 关 的 压 层 细节 。 其 次 ，TaaS 平 台 结合 了 谷歌 开 
源 的 容器 云 平台 管理 工具 Kubernetes 来 实现 对 分 布 式 TensorFlow 任 务 的 
管理 和 监控 ， 并 支持 通过 UI 设置 分 布 式 TensorFlow 任 务 的 节点 个 数 、 
是 否 使 用 GPU 等 信息 。 


Caicloud 的 TaaS 平 台 提 供 了 一 个 抽象 基 类 CaicloudDistTensorflowBase， 
该 类 封装 了 分 布 式 TensorFlow 集 群 的 配置 与 启动 、 模 型 参数 共享 与 更 
源 逻 辑 处 理 、 计 算 节 点 之 间 的 协同 交互 以 及 训练 得 到 的 模型 和 日 志 的 
保存 等 与 模型 训练 过 程 无 关 的 操作 。 用 户 只 需要 继承 该 基 类 ， 并 实现 
与 模型 训练 相关 的 函数 即 可 。 其 代码 结构 如 下 : 


import caicloud dist tensorflow base as caicloud 


class MyDistTfModel(caicloud.CaicloudDistTensorflowBase) : 


""" 基 于 自身 业务 来 定义 训练 模型 、 执 行 训 练 操作 等 """ 


用 户 继承 的 类 需要 选择 性 地 实现 CaicloudDistTensorflowBase 基 类 中 的 4 
个 函数 ， 它 们 分 别 是 build_model 、get init fn 、train 和 after train ° 
build_model 给 出 了 定义 TensorFlow 计 算 图 的 接口 。 在 这 个 函数 中 ， 用 
户 需 要 处 理 输 入 数据 、 定 义 深度 学 习 模 型 以 及 定义 训练 模型 的 过 程 。 
get_init_ 提 函 数 中 可 以 定义 在 会 话 (tf.Session) 生成 之 后 需要 额外 完成 
的 初始 化 工作 ， 当 没有 特殊 的 初始 化 操作 时 ， 用 户 可 以 不 用 定义 这 个 
函数 。 这 个 函数 可 以 完成 模型 预 加 载 的 过 程 。train 函 数 中 定义 的 是 每 
一 轮训 | 练 中 需要 运行 的 控 作 。TaaS 会 自动 完成 迭代 的 过 程 ， 但 用 户 需 
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以 通过 定义 after_train 来 评测 以 及 保存 最 后 得 到 的 模型 。 下 面 将 通过 
TaaSs 平 台 实 现 分 布 式 TensorFlow 训 练 过 程 来 解决 MNIST 问 题 眉 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data 


import caicloud_dist_tensorflow_base as caicloud ‘*- 


class CaicloudDistMnist(caicloud.CaicloudDistTensorflowBase 


Ww 


# 定义 神经 网 络 前 向 传播 的 过 程 。 


def _inference(self, images): 

w = tf.Variable(tf.zeros([784, 10]), name='weights' ) 
tf.summary.histogram("weights", w) 

b = tf.Variable(tf.zeros([10]), name='bias' ) 
tf.summary.histogram("bias", b) 

predictions = tf.matmul(images, w) + b 


return predictions 


# 定义 优化 函数 。 在 同步 模式 下 需要 使 用 SyncReplicas0OptimizerV2 来 
同步 不 同 worker 。 


def _create_optimizer(self, sync, num_replicas): 
optimizer = tf.train.AdagradOptimizer(0.01); 
if sync: 
num_workers = num_replicas 
optimizer = tf.train.SyncReplicasOptimizerv2( 
optimizer, 
replicas_to_aggregate=num_workers, 
total_num_replicas=num_workers, 
name="mnist_sync_replicas" ) 


return optimizer 


# build_model 函 数 中 ，g1lobal_step 参 数 是 金 局 的 训练 轮 数 ， 在 定义 优 
化 画 数 时 需要 将 训 


E 练 轮 数 作为 参数 传 入 ， 这 样 global_step 可 以 通过 优化 器 自动 维护 。 
is_chief 参 数 给 出 了 


# MBIT RAGHEVER TA oc syncBRMAH SHAH RHR oY 
sync 为 True 时 模型 


# 需要 采用 同步 模式 更 新 ， 否 则 使 用 异步 模式 。num_replicas 参 数 给 出 了 
该 TensorFlow 集 


# 群 中 计算 节点 的 个 数 。build mode1l 画 数 需要 返回 一 个 
tensorflow.train.Optimizer 


# 对 象 ，TaaS 平 台 将 自动 使 用 该 对 象 来 完成 同步 模式 下 初始 化 的 工作 。 


def build_model(self, global_step, is_chief, sync, num_r 
eplicas): 


# 定义 当前 worker 的 训练 轮 数 ， 该 变量 可 以 用 来 输出 训练 信息 。 


self._step = 0 


# 加 载 MNIST 数 据 ， 数 据 存放 的 地 址 需要 为 Caicloud 提 供 的 存储 路 径 ° 
mnist = input_data.read_data_sets( 


"/caicloud/dist - 
tf/base/examples/mnist/data", one_hot=True) 


self. _mnist = mnist 


# 定义 神经 网 络 的 输入 和 模型 的 前 向 传播 。 


input_images = tf.placeholder( 
tf.float32, [None, 784], name='images' ) 
self. _input_images = input_images 


predictions = self._inference(input_images ) 


# 定义 损失 函数 。 


labels = tf.placeholder(tf.float32, [None, 10], name='la 
bels') 


self. labels = labels 
cross_entropy = tf.reduce_mean( 


tf.nn.softmax_cross_entropy_with_logits(prediction 
s, labels) ) 


self._loss = tf.reduce_mean( 


cross_entropy, name='cross_entropy_ mean' ) 


# 定义 优化 画 数 。 在 调用 优化 函数 时 ， 我 们 需要 将 global_step 传 入 优化 画 
DM, AMWARG 


# 将 无 法 获取 全 局 的 训练 轮 数 。 


optimizer = self. create optimizer(sync, num_replicas) 
train_op = optimizer .minimize( 
cross_entropy, global_step=global_ step) 


self. train_ op = train_op 


# 定义 计算 正确 率 的 方法 。 


correct_prediction = tf.equal(tf.argmax(predictions, 1), 


tf.argmax (labels, 


1)) 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf 
.float32) ) 


self. accuracy = accuracy 


# 返回 优化 函数 。 


return optimizer 


# Caicloud TaaS 平 台 在 生成 TensorFlow 会 话 (Session) 之 后 会 自动 
地 执行 默认 的 初 


# 始 化 操作 ， 例 如 参数 初始 化 、 同 步 模式 更 新 队列 初始 化 等 。 但 如 采用 户 有 
其 他 需要 在 开始 模 


# 型 训练 之 前 完成 的 操作 ， 例 如 模型 预 加 载 ， 则 可 以 通过 定义 get_init_fn 


# get_init_fn 函 数 的 参数 checkpoint_path 提 供 了 用 于 模型 预 加 载 的 
checkpoint 文 件 


# 地 址 或 checkpoint 文 件 所 在 目录 的 路 径 。get_init_fn 画 数 的 返回 为 一 
个 函数 ， 该 函数 


# 必须 接收 一 个 参数 ， 即 一 个 可 用 的 会 话 (Session) 。 该 画 数 将 在 启动 模 
型 训练 之 前 被 调用 。 


# 以 下 代码 展示 了 如 何 通过 该 函数 进行 模型 预 加 载 。 


def get_init_fn(self, checkpoint_path): 


# 获取 模型 文件 地 址 。 
if tf.gfile.IsDirectory(checkpoint_path): 


checkpoint_path = tf.train.latest_checkpoint(checkpo 
int_path) 


else; 
checkpoint_path = checkpoint_path 


print('warm- 
start from checkpoint {0}'.format(checkpoint_path)) 


# 模型 预 加 载 。 
saver = tf.train.Saver(tf.trainable_variables() ) 
def InitAssignFn(sess): 


saver.restore(sess, checkpoint_path) 


# 返回 执行 模型 预 加 载 的 函数 。 


return InitAssignFn 


# Caicloud TaaS 平 人 台 会 自动 地 循环 调用 train 范 数 来 训练 深度 学 习 模 
Ho trainkar# , 


# 用 户 只 需要 定义 每 一 轮训 练 中 需要 执行 的 步骤 。 训 练 的 步骤 可 以 包括 调用 
优化 函数 以 及 计算 滑 


# 动 平均 等 。train 函 数 需 要 返回 一 个 布尔 类 型 ， 表 示 当 前 训练 是 否 需要 结 
束 。 这 样 可 以 支持 当 


# 正确 率 比 较 稳 定之 后 提前 结束 训练 。 

def train(self, session, global_step, is_chief): 

# 执行 模型 训练 步骤 并 记录 时 间 。 

start_time = time.time() 

batch_xs, batch_ys = self._mnist.train.next_batch(100) 


feed_dict = {self._input_images: batch_xs, self. labels: 
batch_ys} 


_, loss_value, np_global_step = session.run( 
[self._train_op, self._loss, global_step], 
feed_dict=feed_dict) 

self._step += 1 


duration = time.time() - start_time 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
if self._step % 50 == 


print('Step %d: loss = %.2f (%.3f sec), global step: 
%d.' % ( 


self._step, loss_value, duration, np_global_step 


)) 


if self. step % 1000 == 


print("Accuaracy on Validation Data: %.3f" % session 


.run( 
self._accuracy, feed_dict={ 
self. _input_images: self._mnist.validation.i 
mages, 
self. labels: self._mnist.validation. labels} 
)) 


return False 


# 在 模型 训练 成 功 结束 后 希望 能 够 计算 最 终 训练 得 到 的 模型 在 MNIST 测 试 数 
据 集 上 的 正确 率 。 


# 这 个 过 程 可 以 通过 定义 after train 函数 来 实现 。 类 似 的 ， 用 户 也 可 以 在 
after_train 


H 图 数 中 保存 最 终 的 模型 。 

def after_train(self, session, is_chief): 

print("train done.") 

print("Accuracy on Test Data: %.3f" % Session. run( 
self. accuracy, feed_dict={ 


self. _input_images: self._mnist.test.images, 


self. labels: self._mnist.test.labels}) ) 


将 以 上 代码 提交 到 Caicloud 的 Taas 平 台 之 后 ， 可 以 看 到 类 似 图 10-10 所 
示 的 监控 页 面 。 在 监控 页 面 中 ，TaaS 提 供 了 对 资源 利用 率 、 训 练 进 
度 、 训 练 模式 、 程 序 日 志 以 及 TensorBoard 等 多 种 信息 的 综 合 展示 ， 用 
户 可 以 更 好 地 了 解 训 练 的 进度 和 状态 。 因 为 篇 幅 所 限 ， 对 TaaS 感 兴趣 
的 读者 可 以 在 Caicloud 的 官方 网 站 caicloud.io 上 找到 更 多 信息 和 教程 。 
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图 10-10 ”Caicloud 提 供 的 TaaS 分 布 式 TensorFlow 任 务 详情 


小 结 
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在 本 章 中 介绍 了 TensorFlow 如 何 通 过 GPU 或 /和 分 布 式 集群 的 方式 加 速 
深度 学 习 模 型 的 训练 过 程 。 首 先 ，10.1 节 介绍 了 在 TensorFlow 中 使 用 单 
个 GPU 加 速 计算 的 过 程 。TensorFlow 对 于 单个 GPU 的 支持 是 非常 方便 
的 ， 几 乎 不 需要 任何 的 额外 设置 。TensorFlow 可 以 上 自动 将 计算 优先 分 
配 到 GPU 上 。 这 一 蔬 也 介绍 了 如 何 使 用 tt.device 函 数 来 手动 配置 计算 运 
行 的 设备 。 然 后 ， 在 10.2 和 中 详细 介绍 了 训练 深度 学 习 模 型 的 并 行 模 
式 。 这 一 市 中 介绍 了 同步 模式 和 异步 模型 两 种 并 行 模式 ， 并 介绍 了 这 
两 种 模式 各 目的 优 缺 点 。 接 着 ， 在 10.3 世 中 给 出 了 通过 TensorFlow 实 现 
了 在 一 台 机 器 的 多 个 GPU 上 并 行 地 训练 深度 学 习 模 型 。 


最 后 ， 在 10.4 节 中 介绍 了 如 何 通 过 TensorFlow 集 群 进 一 步 加 大 训练 深度 
学 习 模 型 的 并 行 化 程度 。10.4.1 小 和 介绍 了 TensorFlow 集 群 的 运行 机 
制 ， 并 给 出 了 启动 简单 TensorFlow 集 群 的 样 例 程 序 。 这 个 小 节 中 也 介 
绍 了 TensorFlow 集 群 的 计算 图 内 分 布 式 方式 和 计算 图 之 间 分 布 式 方 
式 ， 并 指出 在 海量 数据 下 ， 使 用 计算 图 之 间 分 布 式 方式 的 可 扩展 性 更 
强 。10.4.2 小 节 给 出 了 具体 的 TensorFlow 代 码 ， 该 代码 通过 计算 图 之 间 
分 布 式 方式 实现 了 并 行 化 深度 学 习 模 型 训练 的 同步 模式 和 异步 模式 。 
10.4.3 小 节 中 指出 了 原生 的 TensorFlow 在 支持 分 布 式 中 的 不 足 ， 并 介绍 
了 如 何 使 用 才 云 科技 (caicloud.io) 提供 的 TensorFlow as a Service 平 台 
来 更 加 高 效 的 运行 分 布 式 TensorFlow 模 型 训练 过 程 。 


(1)_ 数字 出 自 谷 歌 官 方 技术 博客 https://research.googleblog.com/2016/04/announcing-tensorflow- 


08-now-with.html ° 


(2) 如 何 安 装 支 持 GPU 的 TensorFlow 环 境 可 以 参考 第 2 章 。 


(3) TensorFlow kernel 在 Github 的 
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/kernels 日 录 下 。 


D. 不 同 的 算法 实现 会 有 略微 的 区 别 。TensorFlow 也 支持 更 加 灵活 的 同步 更 新 方式 使 计算 不 会 
因为 某 个 设备 的 故障 而 被 卡 住 。 而 且 在 同步 模式 下 ，TensorFlow 会 保证 没有 设备 能 使 用 陈旧 
的 梯度 更 新 模型 中 的 参数 。 


ANS 


介绍 。 


(5)_ TensorBoard 在 第 9 章 中 有 详 


(6)_ 具体 结果 可 以 参考 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/announcing- 


tensorflow- 08-now-with.html ° 


(7)_ 注 意 这 里 给 出 的 tf-worker(i) 和 tf-ps(i) 都 是 服务 器 地 址 。 


(8)_ 更 多 关于 Hadoop 的 介绍 可 以 参考 其 官方 网 站 : http://hadoop.apache.org/。 


(9)_ 更 多 关于 Kubernetes 的 介绍 可 以 参考 其 官方 网 站 : http://kubernetes.io/。 


(10)_TaaS 公 有 云 服 务 测试 版 将 于 2017 年 3 月 底 正式 上 线 。 


yt 


(11)_Caicloud 提 供 的 TaaS 平 台 只 支持 TensorFlow 0.12.0 及 以 上 版 本 。 


(12)_ 在 Caicloud 提 供 的 开发 环境 中 可 以 加 载 caicloud_dist_tensorflow_base 模 块 。Caicloud 同 时 
也 提供 了 用 于 开发 的 caicloud_dist_tensorflow_base 源 代码 及 pip 安 装 包 ， 感 兴趣 的 读者 可 以 参考 
才 云 科技 官网 caicloud.io ° 


轻松 注册 成 为 博文 视点 社区 用 户 (www.broadview.com.cn) ， 您 即 可 


译 受 以 下 服务 。 


。 下 载 资 源 : 本 书 所 提供 的 示例 代码 及 资源 文件 均 可 在 【下 载 资 
源 】 处 下 载 。 

。 提 交 勘 误 : 您 对 书 中 内 容 的 修改 意见 可 在 【提交 勘误 】 人 处 提交 ， 
若 被 采纳 ， 将 获 赠 博文 视点 社区 积分 《在 您 购买 电子 书 时 ， 积 分 
可 用 来 抵 扣 相应 金额 )。 

。 与 作者 交流 : 在 页 面 下 方 【读者 评论 】 处 留 下 您 的 疑问 或 观点 ， 
与 作者 和 其 他 读者 一 同学 习 交 流 。 


页 面 入 口 : http://www.broadview.com.cn/30959 
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